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以 数据 为 基础 ， 通 过 精彩 案例 展示 Numpy 等 科学 计算 模块 的 强大 功能 和 广泛 应 用 
剖析 Python 关于 并 行 与 大 数据 计算 的 方法 
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Python 因为 其 自身 的 诸多 优点 而 成 为 科学 计算 的 极 佳 








内 容 提 要 




















既 介 绍 了 相关 的 基础 知识 ， 又 提供 了 丰富 的 精彩 案例 ， 











科学 计算 的 基本 概念 与 选择 Python 的 理 
用 于 科学 计算 的 API 和 工具 包 , 如 何 利 
数据 分 析 与 可 视 化 ， 并 行 与 大 规模 计算 ， 











本 书 适合 对 科学 计算 感 兴趣 的 Python A 












































选择 。 本 书 是 将 Python 用 于 科学 计算 的 实用 指南 ， 
并 为 读者 总 结 了 最 佳 实践 经 验 。 其 主要 内 容 包括 : 
由 ， 科 学 工作 流 和 科学 计算 的 结构 ， 科 学 项 目 相关 数据 的 各 个 方 画 
用 的 NumPy 和 SciPy 包 完 成 数值 计算 ,用 Python 做 符号 计算 ， 
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数据 是 事实 的 抽象 形式 ,能 比较 则 可 量化 。 只 要 定义 了 事实 的 起 点 ( 几何 中 称 为 原点 ,代数 
中 称 为 数字 0 ), 一 切 模棱两可 的 表象 通过 对 比 都 将 变 得 井然 有 序 。 然 而 ,， 有 时 人 们 关心 的 事实 是 
复杂 的 、 多 维 的 、 难 以 想象 的 ， 因 此 需要 分 析 数 据 、 梳 理 信息 、 积 累 知识 、 作 出 决策 。 随 着 数据 
获取 和 计算 成 本 的 不 断 降低 , 开源 免费 的 数据 采集 与 分 析 工 具 愈加 便利 ,人 们 将 更 愿意 接受 采集 
数据 与 分 析 数 据 的 过 程 ， 用 数据 提高 工作 效率 ,改善 生活 质量 。 各 门 学 科 中 不 问 数据 的 “差不多 
先生 ”将 被 淘汰 ， 以 数据 为 基础 的 “ 德 先生 ”与 “ 赛 先 生 ” 将 重 回 中 国 。 科 学 是 反复 的 实验 ， 民 
主 是 具体 的 实践 , 二 者 都 离 不 开 数 据 的 支持 。 科学 与 工程 领域 的 各 门 学 科 都 是 建立 在 数据 的 基础 
上 ,用 数据 发 现 问 题 、 解 决 问题 、 展 现 研 究 成 果 ， 是 科学 家 与 工程 师 认 识 世 界 、 改 造 世 界 的 必然 
手段 。 科 学 家 与 工程 师 在 解决 专业 领域 的 计算 任务 时 , 需要 建立 数据 模型 、 分 析 历 史 数 据 、 预 测 
未 来 趋势 ， 这 些 都 离 不 开 专 业 的 科学 计算 工具 。Python 简 洁 优 雅 、 开 源 免费 、 模 块 丰富 、 社 区 活 
跃 ， 是 许多 科学 家 与 工程 师 解决 复杂 计算 问题 的 必 备 工具 ， 而 以 NumPy 和 SciPy 为 基础 构建 的 
Python 科学 计算 环境 ， 在 科学 与 工程 领域 已 经 有 着 十 分 广泛 的 应 用 。 


对 于 科学 计算 难题 ，Python 总 能 立竿见影 。 本 书 作 者 在 科学 计算 领域 经 验 十 分 丰富 ， 知 识 框 
架 完 整 ， 见 解 独到 ， 可 谓 精 通 科 学 计算 。 作 者 在 书 中 以 科学 计算 生态 系统 的 视角 ,不 仅 全 面 阐述 
了 Python 科学 计算 环境 的 基础 内 容 ， 还 为 你 提供 了 Python 科学 计算 的 精彩 案例 ， 总 结 了 科学 计算 
的 最 佳 实践 经 验 。 作 者 首先 以 科学 计算 的 概念 和 作业 流程 为 切入 点 ,总 结 科学 计算 的 任务 和 难点 ， 
进而 结合 Python 的 功能 特性 论述 选择 Python 进行 科学 计算 的 理由 ， 总 结 Python 为 科学 计算 提供 的 
工具 与 API。 之 后 , 作者 以 科学 计算 的 对 象 一 一 数据 一 一 为 基础 ,介绍 数据 存储 的 不 同文 件 格 式 ， 
以 及 为 科学 计算 实验 生成 数据 的 常用 随机 数 生成 方法 。 然 后 ,作者 详细 地 介绍 了 Python 科学 计算 
的 生态 环境 ， 通 过 大 量 示例 介绍 NumPy、SciPy、SymPy、IPython 、matplotlib 和 pandas 等 科学 计 
算 模 块 的 功能 ， 以 及 这 些 模块 在 数据 统计 、 符 号 计算 、 交 互 编程 、 数 据 可 视 化 等 领域 的 应 用 。 在 
大 数据 时 代 ，Python 科 学 计算 不 能 忽视 高 性 能 计算 的 需求 ， 因 此 作者 用 第 8 章 的 内 容 详细 介绍 了 
Python 关 于 并 行 与 大 数据 计算 的 方法 ， 包 括 IPython 的 并 行 计算 框架 、 多 进程 与 多 线程 、Hadoop 
与 PySpark 分 布 式 计算 。 

书 中 还 有 Python 在 科学 与 工程 领域 大 量 的 科学 计算 案例 。 在 中 国 L 型 新 常态 已 成 定局 、 工 业 
4.0 方 兴 未 艾 之 际 ， 通 过 数据 寻求 成 本 与 效率 的 均衡 ， 挖 掘 潜在 的 用 户 需 求 ， 增 强 用 户 体 验 ， 都 
显得 更 加 重要 。 数 据 分 析 方 法 不 再 局 限于 课本 与 描述 性 统计 ， 国 家 、 企 业 、 家 庭 甚至 个 人 发 展 中 






































































































































































































































的 每 一 个 合理 决策 都 需要 数据 的 支持 。 另 外 , 本 书 最 后 一 章 总 结 了 一 些 科学 软件 开发 项 目 中 设计 、 
实施 、 发 布 、 数 据 安全 、 维 护 与 客户 支持 以 及 Python 语言 编程 等 方面 的 最 佳 实践 。 为 了 方便 读者 
查询 Python 模块 ， 作 者 在 书 中 整理 了 不 同学 科 中 解决 具体 问题 时 常用 的 Python 科学 计算 模块 。 
Python 科学 计算 的 模块 非常 丰富 ,读者 在 PyPI 网 站 ( https://pypi.python.org/pypi ) 上 可 以 看 到 最 新 
发 布 的 模块 信息 。 全书 示例 程序 使 用 Python 2.7， 所 有 程序 稍 加 调整 ( 改 print 语 句 ) 或 使 用 2to3 
工具 ， 即 可 在 Python 3 环境 下 运行 。 强 烈 推 荐 使 用 Anaconda 科 学 计算 软件 ， 它 集成 了 Python 科学 
计算 的 常见 模块 ， 有 适用 于 Windows、Mac OS、Linux 系 统 的 不 同 版 本 。BTW， 在 中 国内 地 的 普 
通 网 络 环境 下 , 建议 使 用 清华 大 学 的 TUNA 镜 像 下 载 Anaconda 安 装 包 ( https://mirrors.tuna.tsinghua. 
edu.cn/anaconda/archive/ )。Python 模 块 的 下 载 和 配置 方式 请 参考 https://mirror.tuna.tsinghua.edu.cn/ 
help/anaconda/， 其 配置 方法 十 分 简单 。 运 行 以 下 命令 即 可 添加 Anaconda Python 免 费 仓库 : 






































conda config --add channels 
'https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/' 
conda config --set show_channel_ urls yes 


对 于 那些 Anaconda 官 方 未 添加 的 模块 ， 使 用 pip 安 装 即 可 。 网 络 环境 好 的 同学 ， 也 可 以 考虑 
conda-forge。 更 多 精彩 ， 等 你 探索 。 另 外 ，Anaconda Cloud 、Wakari (已 经 被 Anaconda 收 购 )、 微 
软 Azure notebook 等 云 计 算 环 境 都 安装 了 常用 的 科学 计算 模块 ， 可 以 灵活 配置 ， 免 费 使 用 ， 很 适 
合 上 手 ， 只 要 有 浏览 器 就 都 可 以 写 代 码 。Python 与 PyData 社 区 十 分 活跃 ， 推荐 感 兴趣 的 读者 持续 
关注 。 

科学 与 工程 学 科 众 多 ,知识 浩如烟海 ， 内 容 非常 专业 。 本 书 中 涉及 数学 、 物 理 、 医 学 等 诸多 
方面 的 专业 知识 ， 对 纯 工 科 出 身 的 我 们 来 说 鼎 有 难度 ,相关 知识 我 们 重点 参考 了 维基 百科 。 若 读 
者 在 阅读 过 程 中 发 现 有 翻译 不 当 的 地 方 ， 还 请 帮忙 指正 ， 非 常 感谢 。 
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2016 年 7 月 


了 路 
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“我 坚信 几 十 年 后 ， 科 学 历史 学 家 会 把 我 们 目前 所 处 的 时 代 ， 描 述 成 科学 
史上 一 个 具有 深远 和 重大 意义 的 转型 期 。 在 这 个 过 程 中 , 不 断 涌现 的 免费 开源 
软件 扮演 了 重要 角色 。” 

Fernando Perez，IPython 创 始 人 


本 书 主要 介绍 Python 用 于 科学 计算 的 API 和 工具 包 。 我 强烈 推荐 给 奋战 在 工程 计算 和 科学 计 
算 领 域 的 朋友 们 。 科 学 计算 是 一 个 交叉 领域 , 需要 计算 机 科学 、 数 学 、 自 然 科 学 ( 至 少 是 物理 学 、 
化 学 、 环 境 科 学 、 生 物 学 等 学 科 中 的 一 种 ) 以 及 工程 学 的 知识 。Python 包 含 大 量 的 包 、API 和 工 
具 ， 为 众多 科学 与 工程 领域 提供 所 需 的 功能 。 


用 户 众多 的 社区 、 丰 富 齐 全 的 帮助 文档 、 大 量 的 科学 计算 库 和 开发 环境 、 高 效 的 性 能 以 及 良 
好 的 支持 ,使 得 Python 成 为 科学 计算 的 极 佳 选择 。 






























































本 书 内 容 

第 1 章 , 科学 计算 概况 与 选择 Python 的 理由 , 主要 介绍 科学 计算 的 基本 概念 , 同时 介绍 Python 
的 背景 知识 、 指 导 原则 以 及 为 何 用 Python 进行 科学 计算 是 十 分 高 效 的 。 

第 2 章 ， 科 学 工作 流 和 科学 计算 的 结构 ， 主 要 介绍 通常 在 解决 科学 问题 时 需要 用 到 的 数学 与 
数值 分 析 概 念 ， 还 会 简单 地 介绍 Python 语言 为 科学 计算 提供 的 包 、 工 具 和 API。 

第 3 章 ， 有 效 地 制造 与 管理 科学 数据 ， 主 要 介绍 科学 项 目 相关 数据 的 各 个 方面 ， 包 括 基 本 
概念 、 各 种 数据 操作 以 及 存储 数据 的 格式 与 软件 ， 还 会 介绍 一 些 标 准 数据 集 和 生成 合成 数据 的 
技术 。 

第 4 章 , Python 科学 计算 APl, 主要 介绍 不 同 科学 计算 API 和 工具 ( 包括 NumPy、SciPy 和 SymPy 
等 ) 的 基本 概念 、 特 性 以 及 简单 的 示例 程序 ， 还 会 简单 地 介绍 使 用 了 Python 、matplotlib 和 pandas 
进行 交互 式 计算 、 数 据 分 析 以 及 数据 可 视 化 。 

第 5 章 ， 数 值 计 算 ， 主 要 介绍 如 何 利 用 Python 的 NumPy 和 SciPy 包 完成 数值 计算 。 一 开始 先 介 





















































绍 数值 计算 的 基础 知识 ， 然 后 介绍 优化 、 捕 值 、 传 里 叶 变换 、 信 号 处 理 、 线 性 代数 、 统 计 、 空 间 
算法 、 图 像 处 理 、 文 件 输入 /输出 等 进 阶 知识 。 


第 6 章 ， 用 Python 做 符号 计算 ， 首先 介绍 CAS ( Computerized Algebra System， 计 算 机 化 代数 
系统 ) 的 基础 知识 ， 并 用 SymPy 实 现 符 号 计算 。 这 一 章 将 围绕 CAS 介 绍 多 个 话题 ， 既 包括 简单 的 
数学 表达 式 和 基本 的 算术 运算 ， 也 有 数学 和 物理 学 的 高 级 概念 。 

第 7 章 ， 数 据 分 析 与 可 视 化 ， 介 绍 matplotlib 和 pandas 在 数据 分 析 与 可 视 化 方面 的 相关 概念 和 
应 用 示例 。 

第 8 章 ， 并 行 与 大 规模 科学 计算 ， 介 绍 实现 高 性 能 科学 计算 的 工具 和 方法 , 包括 IPython ( 配合 
MPI ) 并 行 计算 、 使 用 StarCluster 配 置 Amazon EC2 计 算 集群 、 多 进程 与 多 线程 方法 、Hadoop 和 Spark。 

第 9 章 ， 真 实 案 例 介 绍 ， 介 绍 一 些 利 用 Python 开发 的 科学 计算 应 用 、 库 和 工具 的 案例 。 这 些 
案例 都 源 自 不 同 的 工程 和 科学 领域 。 

第 10 章 ， 科 学 计算 的 最 佳 实践 ， 介 绍 科学 计算 的 最 佳 实践 ， 内 容 包 括 方案 设计 、 代 码 编写 、 
数据 管理 、 应 用 部 署 、 高 性 能 计算 、 数 据 安全 与 隐私 、 应 用 维护 以 及 客户 支持 等 ， 同 时 还 会 介绍 
一 些 专 门 针 对 Python 开 发 的 最 佳 实践 。 
























































本 书 需要 的 工具 


运行 本 书 的 示例 程序 首先 需要 一 台 装 有 Python 2.7.9 或 以 上 版 本 的 计算 机 以 及 Python 的 一 些 
API、 包 和 工具 。 然 后 ， 需 要 一 些 Python 库 (包括 NumPy、SciPy、SymPy 、matplotlib 、pandas 和 
IPython )， 还 有 IPython.parallel 包 、pyzmq、SSH 安 全 协议 ( 如 果 你 需要 ) 以 及 Hadoop。 








目标 读者 


本 书面 向 希望 了 解 科学 计算 的 Python 程序 员 。 阅 读本 书 的 前 提 是 你 已 经 掌握 了 Python 编程 的 
基本 概念 。 




















排版 约定 
在 本 书 里 , 你 将 会 看 到 用 于 区 分 不 同类 型 信息 的 文本 样式 。 以 下 给 出 了 一 些 文本 样式 的 示例 
及 其 含义 。 


正文 中 的 代码 和 用 户 输入 会 这 样 显 示 :“ 随 机 模块 中 的 所 有 函数 都 是 random.Random 类 的 
一 个 隐 含 实例 的 方法 。 

















代码 块 示例 如 下 : 


import random 


print random.random() 

print random.uniform(1,9) 

print random.randrange (20) 

print random.randrange (0, 99, 3) 

print random.choice('ABCDEFGHIJKLMNOPQORSTUVWXYZ') # Output 'P' 
tne Sr lL, 2 .3 3 6 0 


random.shuffle (items) 

print items 

print ‘random. sample(tly 2 By B76 7 B795 10 ‘53) 

weighted choices = [('Three', 3), ('Two', 2), ('One', 1), ('Four', 4)] 
population = [val for val, cnt in weighted choices for i in 

range (cnt)] 








print random.choice (population) 


| 忆 这 个 图 标 表示 提示 和 技巧。 


读者 反馈 

我 们 非常 欢迎 读者 的 反馈 。 如 果 你 对 本 书 有 些 想法 ， 有 什么 喜欢 或 是 不 喜欢 的 ,请 反馈 给 我 
们 。 这 将 有 助 于 我 们 开发 出 能 够 充分 满足 读者 需求 的 图 书 。 

一 般 的 反馈 ， 请 发 送 电 子 邮件 至 feedback@packtpub.com， 并 在 邮件 主题 中 注 明 书 名 。 


如 果 你 在 某 个 领域 有 专长 ， 并 有 意 编 写 一 本 书 或 是 贡献 一 份 力量 ， 请 参考 我 们 的 作者 指南 ， 
地 址 为 http://www.packtpub.com/authors。 












































客户 支持 
你 现在 已 经 是 Packt 引 以 为 做 的 读者 了 ， 为 了 能 让 你 的 购买 物 有 所 值 ， 我 们 还 为 你 准备 了 以 
下 内 容 。 





下 载 示例 代码 

你 可 以 用 你 的 账户 从 http://www.packtpub.com 下 载 所 有 已 购买 Packt 图 书 的 示例 代码 文件 。 如 
果 你 从 其 他 地 方 购买 的 本 书 ， 可 以 访问 http:/www.packtpub.com/support 并 注册 ， 我 们 将 通过 电子 
邮件 把 文件 发 送 给 你 。 














下 载 本 书 的 彩色 图 片 


我 们 也 提供 了 本 书 的 PDF 文 件 ， 里 面包 含 了 本 书 的 截屏 和 图 表 等 彩色 图 片 。 彩 色 图 片 将 能 帮 
助 你 更 好 地 理解 输出 的 变化 。 下 载 地 址 : https://www.packtpub.com/sites/default/files/downloads/ 
8823OS.pdf, 
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虽然 我 们 已 尽力 确保 本 书 内 容 正确 ， 但 出 错 仍 旧 在 所 难免 。 如 果 你 在 我 们 的 书 中 发 现 错误 ， 
不 管 是 文本 还 是 代码 ， 希望 能 告知 我 们 ， 我 们 不 胜 感激 。 这 样 做 ， 你 可 以 使 其 他 读者 免 受 挫败 ， 
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科学 计算 概况 与 选择 Python 
的 理由 








科学 计算 ( scientific computing ) 是 指 在 科学 与 工程 领域 ， 使 用 计算 机 数学 建 模 和 数值 分 析 
技术 分 析 和 解决 问题 的 过 程 。 科 学 问题 包括 不 同 科 学 学 科 中 的 问题 ， 如 地 球 科 学 、 空 间 科 学 、 社 
会 科学 、 生 命 科 学 、 物 理学 和 形式 科学 。 这 些 学 科 基 本 涵盖 了 现 有 的 所 有 科学 领域 ， 从 传统 科学 
到 现代 工程 科学 ， 如 计算 机 科学 ， 都 在 其 中 。 工 程 问题 包括 从 土木 工程 和 电子 工程 到 (最 新 的 ) 
生物 医学 工程 领域 的 各 种 问题 。 


本 章 将 介绍 的 话题 如 下 : 


口 科学 计算 的 基础 知识 
口 科学 计算 的 处 理 流程 
口 科学 与 工程 领域 的 计算 案例 
口 解决 复杂 问题 的 策略 

口 近似 、 误 差 和 相关 统计 术语 
口 误差 分 析 的 基本 概念 

口 计算 机 算法 与 浮 点 数 

口 Python 背景 介绍 


口 为 什么 选择 Python 做 科学 计算 


数学 建 模 是 指 利 用 数学 术语 表示 设备 、 物 体 、 现 象 和 观念 的 行为 的 建 模 行为 。 一 般 情况 下 ， 
数学 建 模 可 以 帮助 人 们 更 好 地 理解 观念 、 设 备 和 物体 的 行为 或 观测 值 。 它 可 以 帮助 人 们 解释 观测 
值 ， 并 对 未 来 的 行为 进行 预测 , 或 者 推导 出 还 没有 被 观测 或 测量 的 结果 。 数 值 分 析 是 计算 机 科学 
与 数学 的 交叉 领域 ， 通 过 设计 、 分 析 并 最 终 实现 算法 ,来 解决 自然 科学 ( 例如 物理 学 、 生 物 学 和 
地 球 科学 入 社会 科学 (例如 经 济 学 、 心 理学、 社会 学 和 政治 学 ) 工程 学 、 医 学 和 商学 问题 。 Python 
有 一 个 专门 研究 多 体 动力 学 的 包 和 工作 流 ， 叫 作 Python Dynamics ( 即 PyDy )。 它 是 基于 SymPy 力 
学 包 开发 的 工作 流 和 软件 包 。PyDy 扩 展 了 SymPy， 并 实现 了 多 体 动力 学 仿真 。 
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1.1 科学 计算 的 定义 
科学 计算 也 被 称 作 计算 科学 ( computational science ) 或 科学 计算 法 (scientific computation )， 
其 主要 思路 是 开发 数学 模型 ， 通 过 量化 分 析 技 术 和 计算 机 解决 科学 问题 。 


“科学 计算 是 利用 计算 机 解决 科学 与 工程 领域 的 数学 建 模 问题 所 需 的 工具 、 技 术 和 
理论 的 集合 。 




















一 一 Gene H. Golub 和 James M. Ortega 








简 而 言 之 ,科学 计算 可 以 看 成 是 一 门 交 又 学 科 ， 如 下 图 所 示 。 
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科学 计算 是 一 门 交叉 学 科 


科学 计算 首先 需要 人 们 了 解 问题 ( 通常 是 科学 和 工程 领域 的 问题 ) 背后 的 专业 知识 ， 同 时 
需要 具有 数学 建 模 能 力 ， 掌 握 各 种 数值 分 析 技术 ， 并 能 利用 计算 机 技术 实现 高 效率 、 高 性 能 的 
计算 工具 。 它 还 需要 使 用 计算 机 以 及 各 种 各 样 的 外 围 设备 ， 包 括 网 络 设备 、 存 储 工具 、 计 算 处 
理 器 、 数 学 与 数值 分 析 软件 。 此 外 还 需要 掌握 编程 语言 ， 并 了 解 问题 所 在 领域 的 知识 数据 库 。 
人 们 已 经 利用 科学 计算 的 相关 技术 创造 出 了 新 的 应 用 ， 让 科学 家 们 能 够 从 现 有 的 数据 和 过 程 中 
发 现 新 的 知识 。 


在 计算 机 科学 方面 ， 科 学 计算 可 以 看 成 是 对 数学 模型 和 问题 所 在 领域 的 数据 /信息 的 数值 仿 
真 。 仿 真 目 标 由 具体 问题 决定 。 目 标 可 以 是 探索 事件 发 生 的 原因 ,重新 构建 一 个 具体 的 场景 ， 优 
化 过 程 , 或 者 预测 事件 发 生 的 时 机 。 有 时 数值 仿真 可 能 是 唯一 选择 , 或 者 是 最 佳 选择 。 有 一 些 现 
象 和 场景 基本 上 不 可 能 进行 实验 , 例如 气候 研究 、 天 体 物理 学 研究 和 天 气 预 测 。 在 男 一 些 场景 中 ， 
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实际 的 实验 并 不 可 取 ， 比 如 检验 某 种 材料 或 产品 的 可 靠 性 或 强度 。 有 些 实验 的 时 间 / 经 济 成 本 很 
高 , 例如 车 祸 或 生命 科学 实验 。 存 以 上 这 些 场景 中 , 科学 计算 能 够 经 济 高 效 地 帮助 用 户 分 析 和 解 
决 问题 。 





1.2 ”科学 计算 的 简单 处 理 流程 


下 面 的 流程 图 简单 说 明了 科学 计算 的 步骤 。 第 一 步 是 为 问题 设计 数学 模型 。 当 创建 完 数学 模 
型 后 , 下 一 步 是 开发 算法 。 算法 通常 需要 利用 合适 的 编程 语言 和 恰当 的 实现 框架 来 实现 。 编程 语 
言 的 选择 是 关键 决策 点 , 由 应 用 的 性 能 和 功能 需求 决定 。 另 一 个 重要 的 决策 点 是 确定 实现 算法 的 
框架 。 确 定 了 语言 和 框架 之 后 ， 就 可 以 实现 算法 并 进行 样本 仿真 了 。 可 以 对 仿真 的 结果 进行 性 能 
和 准确 率 分 析 。 如 果实 现 的 结果 或 效果 不 符合 预期 ， 则 应 该 确定 问题 的 根源 。 之 后 ， 需 要 回头 改 
进 数学 模型 ， 或 者 重新 设计 算法 或 它 的 实现 ， 并 选择 合适 的 编程 语言 和 框架 来 实现 算法 。 



















































































分 析 结 果 














科学 计算 流程 
数学 模型 表现 为 一 组 合理 的 数学 公式 ,这些 公 式 能 够 在 一 定 程 度 上 详细 描述 大 多 数 问题 。 算 
法 用 多 个 步 又 来 表示 解决 过 程 ， 这 些 步 骤 需 要 用 一 种 适当 的 编程 语言 或 脚本 来 实现 。 
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实现 算法 之 后 , 还 有 一 个 重要 的 步 又 需要 完成 一 一 对 实现 的 代码 进行 仿真 运行 。 这 包括 设计 
实验 基础 设施 、 准 备 或 整理 仿真 用 的 数据 /条 件 、 准 备 仿真 的 场景 ， 等 等 。 


仿真 成 功 运行 之 后 , 下 一 步 就 是 收集 和 展示 结果 以 便 进 行 分 析 , 进而 对 仿真 的 有 效 性 进行 验 
证 。 如 果 结 果 不 符合 预期 ， 就 需要 返回 到 前 面 的 步骤 改正 并 重复 。 这 种 返回 到 之 前 步 又 的 情形 ， 
在 上 图 中 用 虚线 表示 。 如 果 每 一 步 都 进行 得 很 顺利 ， 那么 分 析 就 是 工作 流 的 最 后 一 步 ， 图 中 用 双 
线 表 示 。 


为 了 解决 任何 数学 问题 , 尤其 是 科学 与 工程 领域 的 数学 问题 而 进行 的 算法 设计 与 分 析 , 称 为 
数值 分 析 (numerical analysis )， 现 在 也 称 为 科学 计算 。 在 科学 计算 中 ， 需 要 解决 的 问题 主要 是 针 
对 连续 数值 ， 而 不 是 离散 数值 。 后 者 主要 指 计算 机 科学 的 其 他 问题 。 通 俗 的 表述 就 是 ， 科 学 计算 
解决 关于 连续 变量 的 方程 和 公式 问题 , 例如 时 间 、 距 离 、 速 率 、 重 量 、 高 度 、 尺 寸 、 温度 、 密 度 、 
压力 、 应 力 等 。 


一 般 情 况 下 , 连续 变量 的 数学 问题 只 能 获得 近似 解 , 因为 它们 的 精确 解 不 太 可 能 在 有 限 的 步 
又 中 得 到 。 因 此 ,这 些 问 题 通过 有 限 步 的 迭代 处 理 可 以 收敛 到 一 个 可 行 解 。 这 个 可 行 解 取决 于 目 
标 问题 的 特性 。 通 常 迭代 步 又 都 是 有 限 的 ， 每 次 迭代 之 后 ,结果 都 会 更 加 接近 仿真 的 期 望 解 。 仿 
真 结果 的 准确 性 和 算法 的 收敛 速度 是 科学 计算 过 程 的 重点 。 


一 些 科学 领域 已 经 在 使 用 科学 计算 解决 问题 了 ， 比 如 : 


口 计算 流体 动力 学 
口 大 气 科 学 
口 地 震 学 

D 结构 分 析 

口 化 学 

口 磁 流 体力 学 

口 地 质 储 层 建 模 

口 全 球 海洋 /气候 建 模 
口 天 文 /天 体 物 理 


















































































































































口 宇宙 学 

口 环境 保护 研究 

口 核 工程 

目前 ， 一 些 新 兴 的 学 科 也 开始 借助 科学 计算 的 力量 ， 包 括 : 
口 生物 学 


口 经 济 学 
口 材料 研究 
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口 医学 影像 
口 动物 科学 





1.3 ”科学 与 工程 领域 的 案例 


让 我 们 看 儿 个 可 能 用 科学 计算 解决 的 问题 。 第 一 个 问题 是 研究 两 个 黑洞 碰撞 的 行为 , 这 个 问 
题 无 论 从 理论 上 还 是 实践 上 都 很 难 理解 。 从 理论 上 说 ,这 个 实验 非常 复杂 ， 儿 乎 不 可 能 在 实验 室 
实现 并 进行 现场 研究 ,但 是 这 个 现象 可 以 根据 爱 因 斯 坦 的 广义 相对 论 的 数学 公式 建立 合理 有 效 的 
数学 模型 ,然后 在 计算 实验 室 进 行 仿真 。 然 而 ,这 个 仿真 需要 消耗 极 大 的 计算 能 力 ， 可 以 通过 先 
进 的 分 布 式 计算 环境 实现 。 


第 二 个 问题 与 工程 和 设计 相关 。 与 汽车 测试 相关 的 一 个 问题 是 碰撞 测试 (crash testing )。 为 
了 降低 完成 真实 ( 也 很 危险 ) 的 碰撞 测试 的 成 本 ,工程 师 和 设计 师 们 都 会 优先 考虑 进行 计算 机 仿 
真 碰撞 测试 。 最 后 ， 还 有 大 型 房屋 与 厂房 设计 问题 。 可 以 按照 设计 目标 构建 一 个 仿真 模型 ， 但 是 
这 样 做 需要 消耗 大 量 的 时 间 和 人 金钱。 然而 , 通过 建筑 设计 工具 完成 设计 可 以 节省 大 量 的 时 间 和 成 
本 。 生 物 信 息 科 学 和 医学 也 有 类 似 的 情况 ,例如 蛋白质 结 构 的 折 受 和 传染 病 的 建 模 研 究 。 蛋 白质 
结构 折 释 的 研究 非常 耗 时 , 但 是 利用 大 规模 计算 机 集群 和 分 布 式 计算 系 统 可 以 高 效 地 完成 。 类 似 
地 ， 在 分 析 不 同 参数 对 传染 病 疫苗 接种 程序 的 影响 方面 ， 为 传染 病 建 模 可 以 节省 时 间 和 成 本 。 

之 所 以 挑选 这 三 个 问题 , 是 因为 它们 分 别 代 表 科 学 计算 可 以 解决 的 三 类 问题 。 第 一 类 问题 是 
基本 不 可 能 解决 的 。 第 二 类 问题 可 以 解决 但 风险 很 高 , 甚至 具有 严重 的 破坏 性 。 第 三 类 问题 不 使 
用 仿真 就 可 以 解决 ,也 可 以 在 现实 生活 中 通过 模拟 解决 ,但 是 通过 仿真 方法 解决 会 更 加 经 济 高 效 。 




















































































































1.4 解决 复杂 问题 的 策略 


解决 复杂 计算 问题 的 一 个 简单 策略 是 : 首先 找 出 问题 的 难点 ,然后 分 解 成 多 个 小 难点 ,各 个 
击破 ,替换 成 问题 的 最 优 解 或 可 行 解 。 总 之 , 就 是 要 把 大 问题 分 解 成 小 问题 ,分 而 治之 。 经 过 初 
步 分 解 后 的 小 问题 ,可 能 简单 也 可 能 依然 比较 复杂 。 可 以 将 复杂 的 小 问题 进一步 分 解 ， 直 到 分 解 
成 可 以 解决 的 问题 为 止 , 最 终 , 需要 解决 的 都 是 一 些 简单 的 小 问题 。 基 本 思路 就 是 通过 分 而 治之 
的 方法 将 难题 蔡 换 成 相似 的 简单 问题 。 


在 应 用 这 个 方法 时 ， 有 两 个 关键 点 需要 注意 。 首 先是 需要 从 同类 问题 中 寻找 可 以 解决 的 问题 
(相似 性 蔡 代 ,切忌 使 用 风 马 牛 不 相 及 的 问题 )。 其 次 是 问题 替换 之 后 ， 需 要 考虑 最 终 问 题 是 否 仍 
然 处 于 可 接受 的 范围 之 类 。 现 列举 一 些 案 例如 下 。 

口 将 无 限 维 空间 问题 简化 为 有 限 维 空间 问题 。 
口 将 无 限 过 程 转换 成 有 限 过 程 , 例如 将 积分 和 无 穷 级 数 转换 成 有 限 项 求 和 或 有 限 差分 法 ( 网 
格 法 )。 
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1.5 














口 如 果 条 件 允 许 ， 用 代数 方程 代替 差分 方程 。 
口 将 非 线性 问题 转换 成 线性 问题 ， 因 为 后 者 更 容易 解决 。 
口 如 果 条 件 允 许 ， 将 复杂 的 函数 简化 成 若干 简单 的 函数 。 























近似 、 误 差 及 相关 统计 概念 和 术语 
这 些 科学 计算 的 答案 通常 都 是 近似 解 。 近似 解 虽然 不 是 我 们 真正 想 要 的 精确 解 , 但 是 可 以 非 
























































常 接近 精确 解 。 “非常 接近 ”的 意思 是 这 个 解 十 分 接近 实际 或 仿真 成 功 获得 的 结果 ， 因 为 它们 实 
现 了 目标 。 这 类 近似 解 或 相似 解 会 受到 许多 因素 的 影响 。 影 响 因素 按照 产生 阶段 可 以 分 成 两 类 : 
一 类 是 在 计算 开始 之 前 就 有 的 ， 另 一 类 是 在 计算 过 程 中 出 现 的 。 


法 ， 


























在 计算 开始 之 前 就 出 现 近 似 值 ， 主 要 由 以 下 因素 造成 。 


口 建 模 假设 或 无 知 : 建 模 过 程 中 可 能 使 用 了 一 些 假设 条 件 ， 没 注意 或 者 忽略 了 一 些 概念 和 
现象 的 影响 ， 最 终 导 致 了 近似 或 可 接受 的 误差 。 

口 观测 或 实验 数据 : 从 一 些 低 精度 的 设备 中 获取 的 数据 可 能 会 不 准确 。 计 算 过 程 中 使 用 一 
些 常量 , 比如 r, 这 些 常量 都 是 近似 值 , 这 也 是 造成 计算 结果 与 真实 值 有 差距 的 重要 原因 。 
口 计算 的 先决 条 件 : 输入 数据 是 从 前 一 个 实验 或 仿真 中 获取 的 值 ， 可 能 有 点 误差 ， 而 经 过 
计算 误差 被 进一步 放大 了 。 前 一 步 的 处 理 可 能 会 成 为 之 后 实验 的 先决 条 件 。 


计算 过 程 中 导致 近似 值 的 主要 因素 如 下 。 


口 简化 问题 : 如 本 章 前 面 介绍 的 ， 为 了 解决 大 而 复杂 的 问题 ， 需 要 使 用 分 而 治之 的 方法 ， 
并 不 断 将 小 难题 转换 成 简单 问题 。 这 可 能 会 产生 近似 值 。 而 且 将 无 限 序 列 蔡 换 成 有 限 序 
列 也 可 能 会 产生 近似 值 。 

口 截断 和 舍 入 : 许多 仿真 都 会 对 中 间 结 果 进 行 截断 和 舍 人 操作 。 类 似 地 ， 计 算 机 内 部 表示 
浮 点 数 的 方法 和 算术 运算 过 程 也 会 导致 些许 不 准确 。 


科学 计算 最 终 出 现 近 似 解 可 能 是 由 上 面 的 若干 因素 造成 的 。 根据 不 同 的 问题 和 不 同 的 解决 方 
最 终结 果 的 准确 性 也 可 能 会 发 生变 化 。 
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模型 造成 的 误差 

问题 简化 造成 的 误差 

实验 数据 误差 
数值 截断 与 取 整 造成 的 

前 提 条 件 计算 中 导致 误差 

的 误差 






































计算 过 程 中 误差 与 近似 的 分 类 


1.5.1 误差 分 析 


误差 分 析 (error analysis ) 是 评估 近似 解 对 算法 或 计算 过 程 准确 性 的 影响 程度 的 过 程 。 下 面 
将 介绍 误差 分 析 的 基本 概念 。 


通过 前 面 对 近 似 解 的 讨论 可 以 得 出 这 样 的 结论 : 误差 既 可 能 出 现在 输入 数据 中 , 也 可 能 在 对 
输入 数据 的 计算 过 程 中 产生 。 


如 果 进 一 步 细 分 ,计算 误差 还 可 以 分 为 两 类 :截断 误差 ( truncation error ) 和 舍 入 误差 ( rounding 
error )。 和 截断 误差 是 将 复杂 问题 简化 成 简单 问题 时 造成 的 ， 例 如 ， 在 得 到 需要 的 准确 率 之 前 粗略 
地 中 断 算法 迭代 。 舍 人 误差 是 使 用 计算 机 计算 时 数字 系统 表示 数字 精度 的 规则 造成 的 , 也 是 在 对 
数字 进行 算术 运算 时 造成 的 。 

最 终 , 误差 究 竞 是 十 分 显著 还 是 可 以 忽略 不 计 ， 由 最 终 数值 的 规模 决定 。 例 如 ,误差 10 对 
数值 15 来 说 是 十 分 显著 的 ， 但 对 785 来 说 就 不 算 大 了 ， 对 17 685 来 说 甚至 可 以 忽略 不 计 。 通 常 ， 
误差 值 的 影响 程度 与 结果 数值 具有 相关 性 。 如果 知道 结果 数值 的 量 级 , 那么 看 看 误差 值 的 量 级 ， 
就 可 以 判断 误差 究竟 是 可 以 忽略 不 计 还 是 十 分 显著 。 如 果 误 差 十 分 显著 ,就 要 考虑 引入 改进 手 
段 了 。 
















































































1.5.2 ”敏感 度 、 稳 定性 和 准确 性 
下 面 介绍 一 些 问题 或 算法 的 重要 属性 。 敏 感度 ( sensitivity 或 conditioning ) 是 问题 的 一 种 属性 。 
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在 某 些 条 件 下 ,问题 可 以 被 称 为 敏感 的 或 不 敏感 的 ,或 者 是 良 态 的 或 病态 的 。 如 果 输 入 值 发 生 相 
对 变化 时 ,输出 结果 也 会 发 生 等 比例 的 相对 变化 ， 就 说 问题 是 不 敏感 的 或 良 态 的 。 另 一 方面 ， 如 
果 输 出 结果 发 生 的 变化 比 输入 值 的 变化 幅度 大 ， 那 么 就 认为 问题 是 敏感 的 或 病态 的 。 





1.5.3 ”后 向 与 前 向 误差 估计 


假设 我 们 通过 映射 函数 1 对 x 进行 计算 获得 了 y*， 即 y*=ftx)。 现在 真实 值 是 y, 那么 微量 7“=y*-y 
被 称 为 前 向 误差 ( forward error ), 对 应 的 佑 计 方 法 称 为 前 向 误差 分 析 。 通常, 很 难 获取 该 估计 值 。 
另 一 种 方法 是 认为 y* 就 是 同样 问题 带 有 修正 x 的 精确 值 ， 即 y*=fx”)。 现 在 x*=x 一 x 就 被 称 为 py* 的 后 
向 误差 ( backward error )。 后 向 误差 分 析 就 是 对 x* 的 参数 估计 过 程 。 






































1.5.4 “误差 可 以 忽略 不 计 吗 


这 个 问题 的 答案 由 你 准备 使 用 科学 计算 的 具体 领域 和 应 用 场景 决定 。 如 果 计 算 导 弹 的 发 射 时 
间 ， 差 0.1 秒 都 会 造成 严重 问题 。 如 果 是 计算 火车 的 到 达 时 间 ，40 秒 误差 也 不 是 大 问题 。 类 似 地 ， 
药物 剂量 的 一 点 改变 可 能 会 对 病人 造成 极其 恶劣 的 影响 ,一般 情况 下 ,如 果 应 用 场景 中 出 现 的 计 
算 误差 与 人 的 生命 无 关 ， 或 者 不 会 导致 巨大 损失 , 那么 可 以 忽略 不 计 。 和 否则 ， 就 需要 努力 解决 误 
差 的 影响 。 







































































1.6 计算 机 算术 运算 和 浮 点 数 


计算 机 为 了 表示 实数 引入 了 一 种 科学 计算 的 近似 类 型 。 这 种 近似 经 过 实数 算术 运算 之 后 会 进 
一 步 放 大 。 下 面 将 介绍 这 种 实数 的 表示 、 算 术 计算 方法 以 及 对 计算 结果 可 能 产生 的 影响 。 然 而 ， 
这 种 近似 误差 不 仅 会 在 计算 机 运算 过 程 中 出 现 , 在 手工 计算 过 程 中 为 了 降低 复杂 度 而 采用 舍 信 计 
算 也 会 造成 近似 误差 。 


在 深入 介绍 用 计算 机 表示 实数 的 方法 之 前 , 让 我 们 先 回顾 一 下 数学 中 使 用 的 科学 记 数 法 。 在 
科学 记 数 法 中 ,为 了 将 极 大 的 数 或 极 小 的 数 简 化 成 较 短 的 形式 ， 用 近似 值 与 10 的 窜 数 乘积 表示 。 
在 科学 记 数 法 中 , 数字 都 被 表示 成 “a 乘 以 10 的 bp 次 方 ”， 即 ax10”。 例如 , 0.000000987654 和 987 654 
可 以 分 别 表 示 成 9.87654x10 了 和 9.87654x10”。 在 科学 记 数 法 中 ， 指 数 都 是 整数 ， 而 系数 是 实数 ， 
称 为 尾数 (mantissa )。 


IEEE (Institute of Electrical and Electronics Engineers， 电 气 和 电子 工程 师 协会 ) 在 IEEE 754 
标准 中 确立 了 浮 点 数 的 表示 方法 。 绝 大 多 数 主 流 设备 都 使 用 这 套 标准 解决 浮 点 数 表 示 的 相关 问 
题 。 最 新 版 标准 在 2008 年 发 布 ， 被 称 为 IEEE 754-2008。 这 套 标准 确立 了 算术 数据 格式 、 交 换 格 
式 、 含 人 规则 、 运 算 方 法 和 异常 处 理 。 它 还 推荐 了 高 级 的 异常 处 理 方法 、 更 多 的 运算 规则 、 表 达 
式 估算 ， 以 及 如 何 编写 可 重用 的 结 









































1.7 Python 编程 语言 简介 9 





1.7 Python 编程 语言 简介 


Python 是 一 种 具有 多 种 用 途 的 高 级 编程 语言 ， 支 持 多 种 编程 范式 ， 包 括 过 程式 编程 、 面 向 对 
象 编程 命令 式 编程 .面向 切面 编程 和 函数 式 编程 -Python 经 过 扩展 后 还 可 以 支持 逻辑 编程 -Python 
是 一 种 解释 型 语言 ， 可 以 帮助 开发 者 用 比 C++、Java 以 及 其 他 语言 更 少 的 代码 行 完成 同样 功能 的 
程序 。Python 支 持 动态 类 型 和 自动 内 存 管理 。Python 自 带 一 个 全 面 的 标准 程序 库 ， 还 有 大 量 满足 
具体 任务 需求 的 第 三 方程 序 库 。 通 过 程序 包 管 理工 具 , 如 pip 、easy_instal1、homepbrew(Mac 
OS X 系 统 )、apt -get (基于 Debian 的 Linux 系 统 ), 以 及 其 他 安装 工具 ( 如 Anaconda ), 安装 Python 
程序 包 都 非常 容易 。 


Python 是 开源 语言 ; 它 的 解释 器 可 以 运行 在 多 种 操作 系统 上 ， 包括 Windows、Linux、OS X 
等 系统 。 还 有 许多 工具 可 以 把 Python 程 序 编译 成 面向 不 同 操 作 系 统 的 可 执行 文件 ， 如 Py2exe 和 
PyInstaller。 可 执行 文件 是 独立 代码 ， 不 需要 Python 解 释 器 就 能 独立 运行 。 
























































































































































1.7.1 Python 语言 的 指导 原则 
Guido van Rossum 发 明了 Python， 并 确立 了 Python 的 指导 原则 ， 他 被 社区 称 为 仁 总 的 独 栽 者 


( Benevolent Dictator For Life, BDFL ), Tim Peters 把 这 些 原则 写成 了 一 段 偶 语 "( https://www.python. 
org/dev/peps/pep-0020/ )， 让 我 们 一 名 一句 来 解释 。 


口 美观 优 于 丑陋 。( Beautifulis better than ugly. ) 这 人 句 话 的 意思 是 说 代码 是 写 给 人 看 的 ， 所 以 
在 所 有 程序 中 ， 代 码 都 应 该 尽 可 能 地 好 看 ， 表 达 式 语法 应 该 简单 ， 并 且 语 法 和 风格 应 前 
后 保持 一 致 。 

口 显明 胜 过 隐 星 。( Explicit is better than implicit. ) 绝 大 多 数 概念 应 该 都 是 显 式 的 ， 就 像 显 式 
的 布尔 类 型 。 我 们 直接 用 文字 true 和 false 表 示 布 尔 类 型 ， 而 不 需要 用 数字 1 和 0 表示 。 当 然 ， 
Python 也 支持 用 数字 表示 布尔 类 型 。 而 且 非 零 值 都 可 以 作为 布尔 值 。 类 似 地 ，fot 循 环 可 
以 处 理 任何 数据 结构 ， 不 需要 考虑 变量 类 型 。 一 个 循环 语句 既 可 以 遍历 元 组 的 每 个 元 素 ， 
也 可 以 处 理 字符 串 的 每 个 字符 。 

口 简单 优 于 复杂 。( Simple is better than complex. ) Python 的 内 存 管 理 方式 对 用 户 而 言 很 简单 ， 

通过 垃圾 回收 器 分 配 /回收 内 存 ， 避 人 免 复杂 操作 ”。 男 一 个 范例 就 是 简洁 的 print 语 句 ; 不 

打印 时 可 以 避免 使 用 文件 描述 符 ， 而 且 多 个 对 象 用 去 号 隔 开 就 可 以 自动 转换 成 可 以 打 

的 形式 。 

口 复杂 胜 过 混乱 。( Complex is better than complicated. ) 科学 计算 的 概念 都 很 复杂 ， 但 并 非 
程序 结构 都 会 十 分 混乱 。 即 使 产品 结构 十 分 复杂 ，Python 的 程序 结构 也 不 应 该 杂乱 无 章 。 
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在 Python 中 import this 就 会 出 现 。 一 一 译 者 注 
@ 其 实 底层 是 通过 引用 计数 等 方式 封装 C 语 言 的 malloc 和 free 函 数 。 一 一 译 者 注 
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Pythonic 方 式 本 质 上 就 是 简单 、 简 洁 ，SciPy 和 NumPy 程 序 包 都 是 非常 好 的 例子 。 

口 扁平 优 于 藤 套 。( Flat is better than nested. ) Python 标准 程序 库 提 供 了 丰富 多 样 的 模块 。 由 
于 Python 的 命名 空间 保持 了 扁平 化 结构 ， 因 此 每 个 程序 库 导 入 名 都 比较 简洁 ， 例 如 
java.net .socket 在 Python 里 就 是 socket 。Python 标 准 程序 库 遵 循 自 备 电 池 (batteries 
included ) 的 设计 哲学 。 标 准 程序 库 提 供 的 模块 可 以 满足 各 种 需求 。 例 如 ， 各 种 各 样 的 网 
络 协议 模块 可 以 用 来 开发 丰富 的 网 络 产 品 。 另 外 ， 标 准 程序 库 里 还 提供 了 图 形 用 户 界 面 
编程 、 数 据 库 编 程 、 正 则 表达 式 、 高 精度 计算 、 单 元 测试 等 众多 模块 。 标 准 程序 库 里 的 
一 些 模块 包括 网 络 (socket 、select、SocketServer 、BaseHTTPServer 、asyncore 、asynchat 、 
xmlrpclib 和 SimpleXMLRPCServer )、 互 联网 协议 (urllib、httplib、ftplib、smtpd、smtplib、 
poplib 、imaplib 和 json )、 数 据 库 (anydbm 、pickle 、shelve 、sqlite3 和 mongodb )、 并 行 处 
理 (subprocess、threading、multipro-cessing 和 queue )。 

口 广泛 胜 过 深究 。( Sparse is better than dense. ) 这 一 点 是 对 Python 标准 程序 库 的 要 求 ， 其 履 
盖 面 相对 广泛 浅显 ， 而 PyPI ( Python package index，Python 程 序 包 索引 器 ) 则 丰富 多 彩 ， 
博大 精深 ,通过 十 分 详尽 的 第 三 方程 序 包 列表 ， 可 以 为 一 个 主题 提供 更 深入 、 全 面 的 支 
持 。 我 们 可 以 用 pip 安 装 Python 程 序 包 。 

口 可 读 性 不 可 或 缺 。( Readability counts. ) 程序 的 语句 块 都 用 空格 创建 ，Python 语 法 中 使 用 
最 小 的 标点 符号 。 语 句 结尾 不 需要 分 号 。 分 号 可 以 在 句 尾 使 用 ,但 是 并 非 必 需 。 类 似 地 ， 
大 多 数 情 况 下 ， 表 达 式 也 不 需要 括号 。Python 使 用 内 联 文档 产生 程序 API 文 档 。Python 的 
文档 在 运行 时 和 线 上 都 可 以 获取 。 

口 特例 不 能 破坏 规则 。( Special cases aren’t special enough to break the rules. ) 这 人 句 话 隐 含 的 
意思 是 Python 中 每 个 成 员 都 是 对 象 。 所 有 内 置 类 型 被 设计 成 对 象 。 用 于 表现 数字 的 数据 类 

型 拥有 方法 。 每 个 函数 本 身 也 是 拥有 方法 的 对 象 。 

口 即使 复杂 现实 会 打破 纯粹 规则 。( Although practicality beats purity. ) Python 支持 多 种 编程 
范式 ， 可 以 让 用 户 选 择 最 适合 解决 问题 的 范式 。 它 支持 面向 对 象 编程 、 过 程式 编程 、 函 
数 式 编程 等 多 种 编程 范式 。 

口 异常 不 能 不 辞 而 别 。( Errors should never pass silently. ) Python 的 异常 处 理 方法 ， 可 以 让 异 
常 通 过 较 高 层面 的 API 编 程 解 决 ， 不 需要 触及 底层 API。Python 不 仅 为 标准 异常 的 处 理 提 
供 了 非常 详细 的 说 明 ， 同 时 也 允许 用 户 自 定义 异常 ， 进 行 个 性 化 处 理 。 为 了 支持 代码 调 
试 ，Python 提 供 了 代码 跟踪 。 在 Python 程序 中 ， 错 误 处 理 机 制 默认 会 在 stderz 里 把 完整 
的 错误 信息 打印 出 来 。 跟 踪 信 息 里 包含 源 文件 名 称 、 行 号 和 源 代码 ， 如 果 存 在 的 话 。 

口 除非 需要 它 悄然 无 声 。( Unless explicitly silenced. ) 为 了 应 对 一 些 特殊 情况 ， 有 时 也 需要 
让 异常 悄 无 声息 地 运行 。 这 时 ， 可 以 使 用 不 带 except 的 try 语 句 。 还 有 一 种 办 法 就 是 把 
异常 转换 成 普通 的 字符 串 。 

口 模棱两可 时 ， 不 要 胡思乱想 。( In the face of ambiguity, refuse the temptation to guess. ) 自动 
类 型 转换 只 在 事先 知晓 的 情况 下 才能 使 用 ， 例 如 ， 整 型 与 浮 点 型 数据 运算 后 生成 一 个 浮 
点 型 数据 。 
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口 应 该 有 且 仅 有 一 种 明确 的 方式 解决 问题 。( There should be one 一 and preferably only one -一 
obvious way to do it. ) 这 一 点 是 显而易见 的 。 这 就 需要 消除 一 切 元 余 。 于 是 程序 会 变 得 更 
容易 学 习 和 记忆 。 

口 虽然 那 种 方式 起 初 并 非 显 而 易 见 ， 除 非 你 是 Guido。( Although that way may not be obvious 
at first unless you’re Dutch. ) 上 一 条 介绍 的 处 理 方式 主要 是 面 对 标准 程序 库 的 。 当 然 ， 第 
三 方 模块 非常 丰富 。 例 如 ，Python 拥 有 多 个 GUI 的 API， 如 GTK 、wxPython 和 KDE 等 。 网 
络 编程 工具 也 有 很 多 ， 如 Django、AppEngine 和 Pyramid 等 。 

口 现在 做 比 不 做 好 。( Now is better than never. ) 这 句 话 的 意思 是 葡 励 用 户 让 Python 成 为 他 们 

最 喜欢 的 工具 。Python 的 ctypes 类 型 ， 可 以 让 Python 程序 使 用 C/C++ 共 享 程序 库 。 

口 虽然 不 做 比 急于 求 成 好 。( Although never is often better than right now. ) Python 增强 方案 
(Python Enhancement Proposals，PEP ) 提出 了 一 种 缓期 执行 的 方案 ， 对 语法 、 语 义 和 内 建 
类 型 的 改进 都 会 在 一 段 时 期 后 发 布 的 新 版 本 中 体现 。 

口 如 果 结 果 很 难 解 释 , 一 定 不 靠 谱 ; 如 果 容 易 解释 , 也 许 行 得 通 。( Ifthe implementation is hard 
to explain, it’s a bad idea. If the implementation is easy to explain, it may be a good idea. ) 在 


Python 里 , 所 有 的 语法 变更 、 新 模块 和 API 的 引入 ,都 会 经 过 非常 严谨 的 检查 和 审批 流程 。 






















































































1.7.2 为 什么 用 Python 做 科学 计算 


说 实话 ， 如 果 仅 从 Python 语言 本 身 来 看 这 个 问题 ， 可 能 其 他 编程 语言 更 有 优势 。 不 过 我 们 有 
NumPy 、SciPy、IPython 和 matplotlib 程 序 库 ， 它 们 让 Python 成 为 了 科学 计算 的 最 佳 选择 。 我 们 将 
在 后 面 的 章节 中 介绍 这 些 程序 库 。 下 面 来 总 结 一 些 Python 语 言 和 相关 科学 计算 程序 库 的 综合 特 
性 ， 这 些 特性 让 Python 比 其 他 编程 语言 ( 如 MATLAB 和 R 等 ) 更 适合 做 科学 计算 。 基 本 上 没有 一 
种 语言 可 以 满足 以 下 所 有 特性 。 

1. 简洁 易 读 的 代码 

Python 代码 通常 都 很 简洁 ， 相 比 其 他 科学 计算 语言 更 加 容易 理解 。 正 如 Python 指导 原则 中 所 
说 的 ， 简 洁 是 Python 的 设计 哲学 。 

2. 编程 范式 丰富 的 语言 设计 

总 的 来 说 ，Python 语 言 的 设计 非常 适合 做 科学 计算 ， 因 为 Python 支持 多 种 编程 范式 ， 包 括 过 
程式 编程 、 面 向 对 象 编 程 、 函 数 式 编程 和 逻辑 编程 。 用 户 可 以 有 多 种 选择 ， 可 以 自行 确定 最 适合 
解决 问题 的 范式 。 这 一 点 在 其 他 科学 计算 的 编程 语言 中 都 是 没有 的 。 

3. 免费 与 开源 

Python 及 其 科学 计算 工具 都 可 免费 使 用 , 而 且 都 是 开源 的 。 这 一 点 的 好 处 是 可 以 获取 源 代码 。 
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而 其 他 大 多 数 科学 计算 工具 "都 是 独家 销售 的 产品 ， 其 本 身 的 算法 和 内 容 也 没有 向 用 户 公开 。 
4. 语言 交互 能 力 


Python 具有 与 大 多 数 主 流 技术 相互 操作 的 交互 能 力 。 我 们 可 以 调用 不 同 的 编程 语言 的 函数 、 
代码 、 程 序 包 和 对 象 ， 例 如 MATLAB 、C、C++、R 、Fortran 以 及 其 他 语言 。 还 有 许多 方法 可 以 
实现 这 种 交互 能 力 ， 例 如 Ctypes 、Cython 和 SWIG 等 。 


5. 可 移植 与 可 扩展 


Python 支 持 绝 大 多 数 平台 。 因 此 ， 它 是 一 种 可 移植 的 编程 语言 ， 而 且 它 的 程序 在 一 个 平台 上 
写 完 后 ， 迁 移 到 男 一 个 支持 Python 的 平台 上 运行 时 ， 输 出 结果 几乎 是 一 样 的 。Python 背 后 的 设计 
原则 使 得 它 成 为 一 种 可 以 进行 高 度 扩 展 的 语言 , 这 就 解释 了 为 什么 我 们 可 以 拥有 那么 多 可 以 解决 
各 种 任务 的 高 级 程序 库 。 


6. 层次 化 模块 系统 


Python 使 用 模块 化 系统 在 命名 空间 中 以 函数 和 类 的 形式 组 织 程序 。 为 了 让 Python 的 概念 容易 
被 人 们 学 习 和 记忆 ， 命 名 空间 系统 的 设计 非常 简单 。 这 么 做 还 增强 了 代码 的 可 读 性 与 可 维护 性 。 


7. 图 形 用 户 界 面 程序 包 


Python 提 供 了 许多 图 形 用 户 界面 程序 包 和 工具 组 合 。 这些 工 具 套件 和 程序 包 可 以 用 来 做 图 形 
设计 、 用 户 界 面 设计 、 数 据 可 视 化 以 及 许多 其 他 与 图 形 相关 的 事情 。 


8. 数据 结构 


Python 支持 非常 全 面 的 数据 结构 。 数 据 结 构 在 进行 科学 计算 的 程序 的 设计 和 实现 过 程 中 至 关 
重要 。Python 语 言 的 数据 结构 功能 中 最 大 的 亮点 就 是 词典 。 


9. Python 的 测试 框架 

Python 的 单元 测试 框架 PyUnit 具 有 完整 的 单元 测试 功能 ， 可 以 和 用 户 的 Python 程序 整合 在 一 
起 。 它 支持 许多 重要 的 单元 测试 概念 ， 包 括 测试 夹具 、 测 试用 例 、 测 试 套件 和 测试 运行 器 。 

10. 丰富 的 第 三 方程 序 库 

Python 认同 “ 自 备 电池 ”的 哲学 ， 所 以 它 的 标准 程序 库 里 有 丰富 的 程序 包 。 作 为 一 个 可 扩展 
的 语言 ，Python 也 为 不 同 需求 的 用 户 提供 了 大 量 成 熟 的 个 性 化 程序 库 。 下 面 简 单 介绍 一 些 用 于 科 
学 计算 的 程序 库 。 























































































































DR 语言 除外 。 一 一 译 者 注 
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NumPy/SciPy 程 序 包 可 以 满足 科学 计算 中 的 许多 数学 和 统计 需求 。SymPy 程 序 库 具有 符号 计 
算 功 能 ， 可 以 实现 基本 算术 、 代 数 、 积 分、 离散 数学 、 量 子 物 理 等 学 科 的 符号 计算 。PyTables 是 
一 个 高 效 处 理 拥 有 大 量 数据 的 数据 集 的 程序 包 , 通过 一 种 分 层 数据 库 的 形式 ( HDFS ) 存储 数据 。 
IPython 让 Python 实现 了 交互 式 计算 。 它 是 一 个 命令 行 工具 ， 同 时 支持 多 种 语言 的 交互 式 计算 。 
matplotlib 程 序 库 为 Python/NumPy 提 供 画 图 功能 ， 可 以 画 出 许多 的 图 形 ， 例 如 线性 图 、 直 方 图 、 
散 点 图 以 及 3D 图 。SQL Alchemy 是 一 个 Python 编程 的 对 象 关系 映射 程序 库 。 通 过 它 ， 我 们 可 以 借 
助 数据 库 的 能 力 ， 让 科学 计算 变 得 更 加 高 效 、 轻 松 。 最 后 ， 还 应 该 介绍 一 个 工具 箱 ， 它 建立 在 前 
面 介绍 过 的 这 些 程序 包 以 及 其 他 众多 开源 程序 库 和 工具 箱 的 基础 之 上 。 这 个 工具 箱 的 名 字 叫 
SageMath。 它 也 是 一 个 开源 数学 软件 。 




































































1.7.3 “Python 的 缺点 


介绍 完 Python 相 比 其 他 科学 计算 语言 的 优越 性 之 后 ， 如 果 思 考 Python 的 缺点 ， 会 发 现 Python 
比较 突出 的 一 个 缺点 是 它 的 集成 开发 环境 (integrated development environment，IDE ) 没有 其 他 
语言 强大 。Python 工 具 箱 是 把 分 散在 各 处 的 程序 包 和 工具 箱 组 合 起 来 ， 其 中 有 一 些 还 是 命令 行 界 
面 。 因 此 ， 就 这 一 点 来 看 ，Python 在 一 些 平台 上 相 比 其 他 语言 要 逊色 ， 例 如 Windows 系 统 上 的 
MATLAB。 但 是 ， 这 并 不 是 说 Python 使 用 起 来 不 方便 ， 其 实 它 依然 很 容易 使 用 。 
























































1.8 ”小结 


本 章 首先 介绍 了 科学 计算 的 基本 概念 和 定义 ， 紧 接着 介绍 了 科学 计算 的 操作 流程 , 然后 简要 
介绍 了 科学 和 工程 领域 的 案例 。 之 后 , 论述 了 解决 复杂 问题 的 有 效 策略 ， 以 及 近似 、 误 差 和 相关 
统计 术语 。 

我 们 还 介绍 了 Python 语言 的 背景 知识 和 指导 原则 ， 最 后 解释 了 为 什么 Python 是 进行 科学 计算 
的 最 佳 选 择 。 


下 一 章 将 介绍 科学 计算 中 涉及 的 多 种 数学 /数值 分 析 概 念 ,还 将 介绍 一 些 Python 科 学 计算 的 程 
序 包 、 工 具 箱 和 API。 











科学 工作 流 和 科学 计算 的 
结构 








科学 工作 流 ( scientific workflow ) 表示 为 解决 科学 计算 问题 所 需 的 一 系列 结构 化 活动 和 计算 
步骤 。 科 学 计算 涉及 的 计算 都 具有 较 高 的 强度 和 复杂 度 ,， 还 要 处 理 复杂 的 依赖 关系 。 本 章 其 余部 
分 会 继续 用 科学 计算 问题 的 术语 表示 科学 工作 流 。 现 在 来 介绍 大 多 数 科学 计算 问题 都 需要 的 各 种 
数学 和 计算 概念 。 


这 一 章 将 介绍 以 下 主题 : 


口 科学 计算 的 数学 部 分 

口 Python 的 科学 计算 程序 库 

口 NumPy 人 简介 

口 SciPy 人 简介 

口 pandas 数 据 分 析 

口 IPython ( Interactive Python ) 交互 式 编程 
口 SymPy 符 号 计算 

口 matplotlib 数 据 可 视 化 





























2.1 科学 计算 的 数学 部 分 

首先 将 简要 介绍 科学 计算 问题 中 可 能 出 现 的 各 种 数学 概念 ， 还 会 介绍 对 应 问题 的 解决 方法 。 
不 过 ,这 里 不 会 深入 方法 的 细节 ,在 后 面 的 音节 中 ,我 们 会 详细 介绍 与 这 些 概念 相关 的 Python API。 
2.1.1 线性 方程 组 


在 科学 计算 和 应 用 数学 中 , 最 常见 的 数学 概念 就 是 线性 代数 方程 组 。 通 常 ， 这 类 系统 的 出 现 
都 是 由 于 线性 方程 对 非 线性 方程 的 近似 ， 或 代数 方程 对 差分 方程 的 近似 。 
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线性 方程 组 通常 由 一 组 联 立 线性 方程 构成 ， 示 例如 下 : 











2x+1lx,+l1x,=1 
lx —2x,—1x,=2 


lx +lx,+2x,=2 


这 个 方程 组 由 三 个 线性 方程 组 成 ， 带 有 三 个 未 知 变量 : x!、x2 和 x3。 该 方程 组 的 解 就 是 同时 
满足 三 个 方程 的 三 个 变量 的 值 。 满 足 这 个 方程 的 解 如 下 所 示 : 


X72) 
x, =(-3/2) 
x 三 (372) 


这 个 解 同 时 满足 三 个 方程 。 这 正 是 我 们 把 线性 方程 系统 称 为 线性 方程 组 的 原 整个 方程 
组 被 看 成 一 个 整体 而 非 各 个 独立 的 方程 。 通常 ,使 用 和 迭 代 方 法 , 通过 重复 的 步骤 对 方程 组 进行 求 
解 。 在 程序 中 可 以 通过 一 些 循环 结构 实现 迭代 。 男 外 也 有 非 迭代 方法 , 通过 计算 公式 求解 。 线 性 
方程 组 的 求解 方法 很 多 ， 有 和 迭代 方法 和 非 迁 代 方法 。 例 如 ， 高 斯 LU 矩阵 分 解法 与 高 斯 消 元 法 是 
最 常见 的 非 迭 代 方 法 。 雅 可 比 迭 代 法 和 高 斯 一 赛 德尔 迭代 法 是 常见 的 迭代 方法 。 








































































































2.1.2” 非 线性 方程 组 


非 线性 方程 组 是 指 一 组 联 立方 程 ， 其 中 未 知 变量 的 阶 数 大 于 1。 这 个 系统 可 以 是 一 维 ， 也 可 
以 是 多 维 。 一 般 情 况 下 ， 非 线性 方程 可 以 表述 为 以 下 形式 。 对 于 方程 /，x 需 要 满足 以 下 条 件 : 




















f(x)=0 
x 的 值 被 称 为 方程 的 根 ( root ) 或 零 值 (zero )。 
非 线性 方程 按照 维度 分 为 两 种 ， 如 下 所 示 。 带 一 个 自 变 量 的 一 维 非 线 性 方程 如 下 所 示 : 








f :RaR(scalar) 


方程 的 解 是 满足 条 件 f (x) = 0 的 标量 ( scalar ) x。 男 一 种 非 线 性 方程 是 带 有 n 个 自 变 量 的 非 线 
性 方程 组 : 








f :RnogRn(vector) 
方程 组 的 解 是 同时 满足 所 方程 f(x) = 0 的 矢量 ( vector ) x。 
例如 ， 一 个 一 维 非 线 性 方程 如 下 : 

















3x+sin(x)—e" =0 
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方程 的 带 两 位 有 效 数字 的 近似 解 为 0.36。 一 个 多 维 非 线性 方程 组 如 下 : 








3—x =y 
X+1l=y 


方程 组 的 矢量 解 为 [1, 2] 和 [-2, -1]。 
非 线性 方程 和 非 线性 方程 组 的 解法 很 多 。 一 维 非 线性 方程 的 解法 有 : 


口 二 分 法 (bisection method ) 

口 牛顿 法 (Newton's method ) 

口 割 | 线 法 ( secant method ) 

口 插值 法 (interpolation method ) 

口 着 插值 法 (inverse interpolation method ) 

口 道 二 次 插值 法 (inverse quadratic interpolation ，IQI ) 
口 线性 分 式 插值 法 ( linear fractional interpolation ) 


非 线性 方程 组 的 解法 有 : 


口 牛顿 法 

口 制 线 法 ( secant updating method ) 

口 阻尼 牛顿 法 ( damped Newton’s method ) 
口 Broyden 法 















































由 于 这 些 方 法 都 是 迭代 法 ， 所 以 收敛 的 速度 至 关 重 要 。 所 谓 收 敛 ， 是 指 这 些 方法 一 开始 用 近 
似 解 ， 通过 不 断 迭 代 得 到 精确 解 。 朝 一 个 解 收敛 的 速度 称 为 收敛 速度 。 收 敛 速度 越 快 ， 则 获得 精 
确 解 需要 消耗 的 时 间 越 少 。 对 于 一 些 收敛 速度 较 快 的 方法 , 比如 牛顿 法 , 初始 值 的 选择 至 关 重 要 。 
有 些 方 法 可 能 会 因为 初始 值 选择 不 合适 , 导致 无 法 收敛 。 有 一 些 均 衡 的 方法 是 收敛 速度 和 解 的 精 
确 程度 的 折 中 算法 。 阻 尼 牛 顿 法 就 属于 这 类 方法 。SciPy 软 件 包 里 面 实现 了 大 量 的 算法 来 解 非 线 
性 方程 组 。 可 以 参考 http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.optimize.newton. 
html， 获 取 和 牛顿 一 拉 弗 森 方 法 ( Newton-Raphson method， 即 牛顿 法 ) 的 用 法 和 实现 代码 。 


















































2.1.3 ”最 优化 方法 


最 优化 (optimization ) 是 获取 最 优 可 行 解 的 过 程 。 通 常 ， 模 型 的 可 行 解 都 有 一 个 取 值 范围 ， 
有 最 大 值 或 最 小 值 。 假 如 我 们 要 估算 一 个 新 项 目的 造价 , 那么 最 优 解 一 定 会 取 最 小 值 。 假 如 要 让 
佑 不 同 销售 策略 的 利润 率 ， 那 么 最 优 解 一 定 是 利润 率 最 高 的 销售 策略 。SciPy 有 一 个 优化 技术 甸 
件 包 , 具体 内 容 可 以 参考 http://docs.scipy.org/doc/scipy/reference/optimize.html。 最 优化 方法 在 科学 
与 工程 领域 应 用 普遍 。 具 体 应 用 场景 如 下 : 








~ 
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口 工程 力学 
口 经 济 学 
口 运筹 学 
口 控制 工程 
口 石油 工程 
口 分 子 建 模 














2.1.4 内 揪 法 


在 科学 与 工程 领域 中 ,人们 经 常 通过 抽样 或 实验 获取 大 量 数据 。 这 些 数据 点 可 以 看 成 某 个 函 
数 一 些 自 变量 位 置 上 的 值 。 人们 通常 需要 估计 这 个 函数 在 样本 范围 内 的 某 个 位 置 上 的 值 。 估计 的 
过 程 称 为 内 插 法 ( interpolation )。 通 常 借助 曲线 拟 合 与 回归 分 析 方法 求解 。 


例如 ， 自 变量 x 和 因 变 量 fx) 对 应 的 数值 如 下 。 
























































x 4 5 6 7 8 9 10 
Ax) 48 5 108 147 192 243 300 


通过 内 插 法 就 可 以 估计 自 变 量 在 其 他 位 置 的 函数 值 ， 例 如 x=7.5 或 x=5.25， 即 17.5) 或 15.25)。 
虽然 这 组 样本 的 函数 非常 简单 (六 3x* )， 但 它 也 可 能 源 自 某 个 真实 案例 。 例 如 ， 这 组 数据 可 能 是 
某 家 电 商 企业 的 网 络 中 心机 房 的 温度 。 这 些 温度 是 在 不 同 的 时 间 点 测量 的 。 两 次 测量 之 间 的 时 间 
间隔 ， 既 可 能 是 固定 不 变 的 , 也 可 能 是 完全 随机 的 。 这 个 例子 中 ， 函 数值 就 变 成 了 不 同时 间 点 测 
量 的 机 房 的 温度 。 我 们 需要 估计 或 者 插值 计算 这 一 天 剩余 时 间 机 房 的 温度 。 

这 组 数据 的 另 一 个 场景 可 能 是 ,对 某 个 年 龄 段 的 用 户 每 天 花 在 Facebook 或 WhatsApp 上 的 小 时 


数 的 数量 统计 。 通过 这 些 数据 , 就 可 以 估计 各 个 年 龄 段 的 用 户 每 天 花 在 Facebook 或 WhatsApp 上 的 
时 间 。 


















































2.1.5 “外 揪 法 


另 一 种 类 似 的 方法 是 外 播 法 (extrapolation )。 通 过 它 的 名 称 可 知 ， 这 个 方法 是 要 估计 函 
数 在 样本 范围 之 外 的 值 。 例 如 ,假设 我 们 已 经 获得 了 12 岁 到 65 岁 各 个 年 龄 段 的 用 户 每 天 花费 
在 Facebook 或 WhatsApp 上 的 小 时 数 。 那 么 估计 12 岁 以 下 和 65 岁 以 上 的 用 户 每 天 花 在 Facebook 
或 WhatsApp 上 的 小 时 数 就 属于 外 揪 法 的 范围 了 。 这 是 因为 自 变量 的 范围 已 经 超出 了 已 知 的 样 
本 范围 。 


有 许多 方法 可 以 解决 内 插 和 外 插 问 题 。 内 插 法 如 下 所 示 : 



























































口 分 段 常数 内 插 法 (piecewise constant interpolation ) 
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口 线性 内 插 法 (linear interpolation ) 

口 多 项 式 内 插 法 ( polynomial interpolation ) 

口 样 条 内 插 法 (spline interpolation ) 

口 基于 高 斯 过 程 的 内 插 法 ( interpolation via Gaussian processes ) 


外 插 法 如 下 所 示 : 


口 线性 外 搬 法 ( linear extrapolation ) 

口 多 项 式 外 插 法 ( polynomial extrapolation ) 

口 锥 外 插 法 (conic extrapolation ) 

口 法 国 曲 线 外 插 法 (French curve extrapolation ) 





























2.1.6 数值 积分 


数值 积分 ( numerical integration ) 是 用 数值 分 析 技 术 求 取 积 分 近似 值 的 过 程 。 积 分 的 数值 计 
算 过 程 称 为 求 积 分 ( quadrature )。 之 所 以 要 使 用 近似 方法 求 积 分 ， 是 因为 有 些 函 数 不 能 通过 解析 
方法 求 精 确 解 。 即 使 公式 存在 , 它 也 可 能 不 是 最 有 效 的 求 积 分 方法 。 有 时 我 们 需要 求 一 个 函数 的 
积分 值 , 但 只 知道 其 中 的 一 些 样 本 。 使 用 数值 积分 的 方法 ,就 可 以 为 函数 的 积分 获得 近似 值 。 这 
个 方法 首先 对 一 些 已 知 点 进行 多 项 式 拟 合 (polynomial fitting )， 然 后 对 逼近 子 数 进行 积分 。 在 
Python 中 ，SciPy 程 序 包 提 供 了 积分 模块 。 关 于 这 个 模块 的 具体 方法 和 实现 ， 请 参考 
http://docs.scipy.org/doc/scipy/reference/integrate.html。 有 许多 方法 可 以 解决 数值 积分 问题 ， 如 下 
所 示 : 


口 辛普森 法 则 ( Simpson’s rule ) 

口 梯形 法 则 (trapezoidal rule ) 

口 精炼 梯形 法 则 (refined trapezoidal rule ) 

口 高 斯 积分 法 则 (Gaussian quadrature rule ) 

口 牛顿 - 柯 特 斯 积分 法 则 (Newton-Cotes quadrature rule ) 
口 高 斯 - 勒 让 德 积 分 法 则 ( Gauss-Legendre integration ) 
























































2.1.7 ”数值 微分 


数值 微分 (numerical differentiation ) 是 利用 已 知 的 函数 值 估 计 函 数 导数 的 过 程 。 数 值 微 分 在 
许多 领域 都 有 十 分 重要 的 作用 。 一 般 的 使 用 场景 是 , 我 们 没有 得 到 函数 的 形式 ， 只 观察 到 函数 的 
一 些 离散 值 。 这 时 ， 如 果 要 估计 导数 ， 就 要 关注 与 函数 的 导数 相关 的 数值 变化 情况 。 为 了 计算 的 
快速 和 便利 起 见 ， 人 们 往往 更 喜欢 用 离散 值 估计 函数 的 导数 ， 而 不 是 寻找 精确 解 ， 因 为 它 虽 然 存 
在 , 但 是 往往 很 难 求解 。 微 分 方法 经 常 被 用 于 解决 最 优化 问题 。 机 器 学 习 技 术 也 常常 要 用 到 数值 
微分 方法 。 
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一 些 数值 微分 方法 如 下 所 示 : 

口 有 限 差分 近似 法 ( finite difference approximation ) 
口 微分 求 积 法 ( differential quadrature ) 

口 有 限 差 分 系数 ( finite difference coefficients ) 

口 插值 微分 法 ( differentiation by interpolation ) 








2.1.8 微分 方程 


微分 方程 ( differential equation ) 是 一 种 描述 导数 与 其 隆 数 关系 的 数学 方程 式 。 如 果 函 数 是 一 
个 物理 量 , 那么 导数 就 是 这 个 物理 量 的 变化 率 , 微分 方程 就 是 这 个 物理 量 和 其 变化 率 的 关系 。 受 
重力 影响 的 自由 落体 运动 方程 通常 是 用 一 组 微分 方程 表示 的 。 微分 方程 的 应 用 范围 很 广 , 包括 纯 
数学 和 应 用 数学 、 物 理学 、 工 程 和 其 他 学 科 。 这 些 学 科 都 会 涉及 不 同类 型 的 微分 方程 。 

微分 方程 主要 用 来 对 不 同 的 物理 、 工 艺 和 生物 学 过 程 建 模 。 许 多 情况 下 ,微分 方程 可 能 无 法 
直接 求解 。 因 此 ,通常 都 用 数值 方法 求 近似 解 。 物 理学 的 基本 法 则 ( 如 牛顿 第 二 运动 学 定律 和 爱 
因 斯 坦 场 方程 ) 和 化 学 的 基本 法 则 ( 如 化 学 反应 速率 方程 )， 都 是 通过 微分 方程 得 出 的 。 微 分 方 
程 也 可 以 用 于 对 复杂 的 生物 学 行为 (生物 种 群 增长 模型 ) 和 经 济 学 行为 ( 指数 增长 模型 ) 建 模 。 


微分 方程 可 以 分 为 两 类 : 常 微分 方程 (ordinary differential equations，ODE ) 和 偏 微 分 方程 
( partial differential equations ，PDE )。 常 微分 方程 是 包含 一 个 自 变 量 的 函数 及 其 偏 导 数 的 微分 方 
程 。 偏 微分 方程 是 包含 多 个 自 变 量 的 函数 及 其 导数 的 微分 方程 。 多 自 变量 函数 的 偏 导数 就 是 函数 


对 每 一 个 自 变量 的 导数 "。 关 于 SciPy 的 微分 方程 计算 功能 的 详细 介绍 ， 可 以 参考 http:/docs.scipy. 
org/doc/scipy-0.13.0/reference/generated/scipy.integrate.ode.html。 

解 常 微 分 方程 的 方法 如 下 : 

口 欧 拉 方法 ( Euler’s method ) 

口 泰勒 级 数 法 (Taylor series method ) 

口 龙 格 - 库 塔 法 (Runge-Kutta method ) 

口 四 阶 龙 格 - 库 塔 法 (Runge-Kutta fourth order formula ) 

口 预 估 - 校 正法 (predictor-corrector method ) 


解 偏 微分 方程 的 方法 如 下 : 


口 有 限 元 法 (finite element method ) 
口 有 限 差 分 法 ( finite difference method ) 
口 有 限 体 积 法 ( finite volume method ) 






































































































































中 求 导 时 可 以 把 其 他 变量 看 成 常量 。 一 一 译 者 注 
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1. 初始 值 问题 
常 微分 方程 的 初始 值 是 未 知 函数 在 定义 域内 的 某 个 位 置 的 值 。 例 如 dy/dx=fx,y)， 其 中 y=yi， 


X—Xlo 




















2. 边 珊 值 问题 


边界 值 问题 是 指 带 约束 的 微分 方程 , 方程 的 解 必须 能 够 同时 满足 微分 方程 的 所 有 约束 。 这些 
束 称 为 边界 条 件 。 








乡 


wa 


2.1.9 ”随机 数 生成 器 


在 计算 领域 ,随机 数 生成 器 是 一 种 产生 不 包含 任意 模式 的 序列 的 算法 或 过 程 。 之 所 以 称 为 随 
机 数 ， 是 因为 它们 没有 任何 模式 可 循 。 产 生 的 数字 基本 无 法 预测 。 生 成 随机 数 的 程序 与 日 俱 增 ， 
也 促进 了 随机 数 生 成 方法 的 发 展 。 这 项 技术 历史 和 悠久， 最早 的 掷 仍 子 、 抛 硬币 和 抽 扑 元， 都 可 以 
看 成 是 随机 数 生 成 器 。 但 是 ， 这 些 方法 都 只 能 产生 有 限 的 随机 数 。 

随机 数 生 成 器 的 计算 方法 应 用 得 十 分 普遍 ， 例 如 统计 抽样 、 赌 博 、 随 机 生成 的 设计 、 科 学 与 
工程 领域 的 计算 机 仿真 ， 以 及 需要 不 可 预测 结果 的 大 量 其 他 领域 ， 如 密码 系统 。 


随机 数 生成 器 主要 有 两 类 , 真 随机 数 生成 顺和 伪 随 机 数 生成 器 。 真 随机 数 生成 器 通过 真实 的 物 
理 过 程 生成 随机 数 , 例如 硬盘 的 实际 读 写 时 间 。 伪 随机 数 生成 器 通过 计算 机 算法 生成 随机 数 。 还 有 
一 种 随机 数 生成 器 通过 统计 分 布 生成 随机 数 ， 例 如 泊 松 分 布 、 指 数 分 布 、 正 态 分 布 、 高 斯 分 布 等 。 


一 些 伪 随机 数 生 成 带 如 下 所 示 : 


口 BBS 随机 数 生成 器 (Blum Blum Shub ) 

口 Wichmann-Hill 随 机 数 生成 右 ( Wichmann-Hill ) 

口 进位 -互补 -乘法 随机 数 生 成 器 ( complementary-multiply-with-carry ) 

口 反 向 同 余 随 机 数 牛 成 吉 (inversive congruential generator ) 

口 ISAAC 随 机 数 生成 器 〈ISAAC (cipher) ) 

口 浏 后 斐 波 那 契 随机 数 生成 锅 (lagged Fibonacci generator ) 

口 线性 同 余 随机 数 生成 器 〈1linear congruential generator ) 

口 线性 反馈 移 位 寄存 器 (linear-feedback shift register ) 

口 最 大 周期 ( 索 菲 ， 热 尔 曼 质数 ) 倒数 随机 数 牛 成 避 (maximal periodic reciprocals ) 
口 梅森 旋转 随机 数 生成 器 ( Mersenne twister ) 

口 进位 相 乘 随机 数 生成 器 ( multiply-with-carry ) 

口 Naor-Reingold 伪 随机 数 生成 需 ( Naor-Reingold pseudo-random function ) 
口 Park-Miller 随 机 数 生 成 器 (Park-Miller random number generator ) 

口 WELL 伪 随机 数 生成 器 ( Well-equidistributed long-period linear ) 
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2.2 ”Python 科学 计算 


Python 对 科学 计算 的 支持 , 是 通过 不 同 科学 计算 功能 的 程序 包 和 API 建 立 的 。 对 于 科学 计算 的 
每 个 方面 ， 我 们 都 有 大 量 的 选择 以 及 最 佳 的 选择 。Python 科 学 计算 各 个 方面 的 可 选 包 如 下 所 示 。 


口 画图 : 目前 , 最 流行 的 二 维 图 制作 程序 库 是 matplotlib。 还 有 许多 画图 包 , 如 Visvis 、Plotly、 
HippoDraw、Chaco、MayaVI、Biggles、Pychart、Bokeh。 还 有 一 些 画图 程序 包 是 在 matplotlib 
的 基础 上 改进 功能 ， 如 Seaborn 和 Prettyplotlib 。 

口 最 优化 : SciPy 程 序 包 里 有 最 优化 模块 。OpenOpt 和 CVXOpt 同 样 具有 最 优化 功能 。 

口 高 级 数据 分 析 : Python 可 以 通过 RPy 或 R/S-Plus 接 口 与 R 语 言 配 合 使 用 , 实现 高 级 的 数据 分 

析 功 能 。Python 自 己 的 高 级 数据 分 析 工 具 就 是 大 名 易 易 的 pandas 了 。 

口 数据 库 : PyTables 是 一 种 用 于 管理 分 层 数据 库 的 工具 。 这 个 软件 包 是 以 HDF5 数 据 库 为 基 

础 建立 的 ， 用 于 处 理 较 大 的 数据 集 

口 交互 式 命令 行 : 了 Python 是 Python 的 交互 式 编程 工具 。 

符号 计算 : Python 具 有 符号 计算 功能 的 程序 包 有 SymPy 和 PyDSTool。 本 章 后 面 会 介绍 符号 

计算 方法 。 

专用 扩展 包 : SciKits 程 序 库 为 SciPy、NumPy 和 Python 提供 了 专业 化 的 扩展 。SciKits 的 一 

些 软件 包 如 下 。 


昌 SCikit-aero: Python 航空 工程 计算 程序 包 。 

和 Scikit-bio: 提供 生物 信息 学 领域 的 数据 结构 、 算 法 和 教育 资源 程序 包 。 
scikit-commpy: Python 数字 通信 算法 程序 包 。 

Scikit-image: SciPy 图 像 处 理 程序 包 。 

昌 SCikit-learn: Python 机 器 学 习 和 数据 控 掘 程序 包 。 

Scikit-monaco: Python 蒙特 卡 罗 算 法 程序 包 。 

scikit-spectra: 建立 在 Python pandas 上 的 光谱 学 程序 包 。 

@ scikit-tensor: Python 多 线性 代数 和 张 量 分 解 ( tensor factorizations ) 程序 包 。 
scikit-tracker: 细胞 生物 学 的 目标 检测 和 跟踪 程序 包 。 

四 scikit-xray: 义 射线 科学 的 数据 分 析 工 具 。 

bvp_solver: Python 求解 两 点 边界 问题 的 程序 包 。 

mm datasmooth: SciKits 提 供 的 数据 平滑 程序 包 。 

@ optimization: Python 数值 优化 程序 包 。 

statsmodels: SciPy 统 计 学 计算 与 建 模 程序 包 。 


口 第 三 方 / 非 SciKits 的 软件 包 / 应 用 /工具 : 还 有 许多 软件 包 / 工 具 应 用 于 不 同 的 科学 领域 ， 例 
如 天 文学 、 天 体 物理 学 、 生 物 信息 学 、 地 球 科学 等 。 一 些 科 学 领域 专用 的 Python 程序 包 和 
工具 如 下 。 
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2.2.1 











昌 Astropy: 社区 主导 的 用 于 支持 天 文学 和 天 体 物理 学 计算 的 Python 程 序 包 。 

和 Astroquery: 这 个 程序 包 是 一 组 用 于 访问 在 线 天 文 数据 的 工具 。 

和 BioPython: 这 个 程序 包 是 用 Python 进行 生物 计算 的 工具 包 。 

和 HTSeq: 这 是 用 Python 进行 高 通 量 测 序数 据 ( high-throughput sequencing data ) 分 析 的 
程序 包 。 

和 Pygr: 这 是 Python 中 基因 测序 和 对 比分 析 的 工具 包 。 

ms TAMO: 这 是 Python 中 利用 DNA 序 列 基 元 进行 转录 调控 分 析 的 应 用 。 

到 EarthPy: 这 是 地 球 科 学 领域 的 Python Notebook 案 例 集 合 。 

m Pyearthquake: 进行 地 震 与 MODIS ( 中 分 辨 率 成 像 光谱 仪 ) 数据 分 析 的 Python 程序 包 。 

MSNoise: 这 是 一 种 使 用 环境 地 震 噪 声 监 测 地 震波 速度 变化 的 Python 程序 包 。 

和 AtmosphericChemistry: 对 大 气 化 学 运作 方式 进行 探测 、 构 造 与 转换 的 工具 。 

@ Chemlab: 这 是 一 个 能 够 进行 化 学 相关 计算 的 程序 库 。 





























NumpPy 简介 





Python 经 过 扩展 可 以 支持 数组 和 和 抢 阵 类 型 , 并 且 具 有 大 量 的 函数 , 可 以 计算 这 些 数组 和 和 矩阵 。 
这 些 数组 是 多 维 的 ， 而 这 个 扩展 程序 包 就 是 NumPy。NumPy 的 基本 功能 实现 之 后 , 许多 API 工 具 
都 在 它 的 基础 上 建立 , 包括 matplotlib 、pandas 、SciPy 和 SymPy。 下 面 来 看 看 基于 NumPy 建 立 的 那 
些 工 具 和 API。 





2.2.2 























SciPy 程序 库 


SciPy 是 一 个 为 科学 家 和 工程 师 开 发 的 Python 程序 库 , 用 来 完成 科学 计算 相关 的 功能 。 它 有 许 


多 功能 ， 








如 最 优化 方法 、 线 性 代数 、 积 分 、 插 值 方法 、 图 像 处 理 、 快 速 伟 里 叶 变 换 、 信 号 处 理 以 


及 一 些 特殊 函数 。 它 可 以 解 常 微分 方程 以 及 其 他 科学 与 工程 问题 。 它 建立 在 NumPy 数 组 对 象 的 基 
础 上 ， 是 NumPy 技 术 栈 的 重要 成 员 之 一 。 因 此 ， 有 时 NumPy 技 术 栈 和 SciPy 技 术 栈 可 以 看 成 是 同 
一 个 技术 栈 。 


SciPy 子 程序 包 
SciPy 包 括 以 下 子 程序 包 。 

















口 constants: 物理 常数 和 转换 因子 。 

D cluster: 层次 聚 类 、 矢 量 量化 和 K-means 聚 类 。 
D fftpack: 离散 傅 里 叶 变换 算法 。 

D integrate: 数值 积分 程序 。 

D interpolate: 插值 工具 。 
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D io: 数据 输入 输出 。 

D lib: Python 外 部 库 包 装 器 。 

D linalg: 线性 代数 程序 。 

D misc: 附件 〈 例 如 图 像 读 写 操作 )。 

D ndimage: 多 维 图 像 处 理 的 各 种 功能 。 

口 optimize: 优化 算法 ， 包 括 线性 规划 。 

口 signal: 信号 处 理工 具 。 

口 sparse: 稀 玖 矩阵 及 其 相关 算法 。 

口 spatial: KD 树 、RNN (最 近邻 搜索 ) 算法 、 距 离 函 数 。 
口 special: 特殊 函数 。 

D stats: 统计 学 函数 。 

口 weave: 可 以 把 C/C++ 代码 写成 Python 多 行 字符 串 执行 的 工具 。 




















2.2.3 用 pandas 做 数据 分 析 


pandas 是 一 个 开源 的 Python 程序 库 ， 能 够 进行 高 性 能 的 数据 处 理 与 分 析 。 使 用 pandas ， 用 户 
可 以 在 Python 中 实现 完整 的 数据 分 析 工 作 流 。 而 且 将 pandas 、IPython 工 具 包 和 其 他 Python 程序 库 
组 合 起 来 ， 可 以 获得 非常 好 的 数据 分 析 性 能 和 效率 。 但 是 pandas 数 学 功能 不 足 ， 目 前 只 支持 一 些 
简单 的 回归 方法 。 但 是 , 我们 可 以 从 statsmodels 和 scikit-learn 里 找到 其 他 功能 。pandas 可 以 非常 高 
效 地 连接 与 合并 数据 集 , 支持 丰富 的 输入 输出 文件 格式 ,包括 直接 内 存 读 写 .CSV 、 纯 文本 、Excel、 
SQL 数据 库 和 HDF5 格 式 。 






































2.3 |IPython 交互 式 编程 简介 


IPython 可 以 让 Python 支持 多 种 语言 的 交互 式 编程 IPython 原 本 是 一 个 专 为 Python 编程 设计 的 
命令 行 工 具 , 现在 可 以 支持 多 种 编程 语言 。 IPython 具 有 非常 强大 的 代码 自省 功能 、 新 的 shell 语 法 、 
命令 自动 补 全 、 命令 历 史 保 存 等 功能 。 自 省 功能 是 指 命 令 行 环境 识别 不 同文 字 含 义 ( 属性、 方法 
以 及 其 他 具体 细节 ， 例 如 超 类 ) 的 一 种 能 力 。IPython 的 一 些 特性 如 下 所 示 。 


口 支持 系统 命令 行 shell 和 QT 版 命令 行 shell。 

口 支持 浏览 器 版 本 的 Notebook， 可 以 编写 代码 、 数 学 公式 ， 以 及 支持 多 媒体 和 图 表格 式 。 
口 支持 交互 式 数 据 可 视 化 与 其 他 图 形 用 户 界面 。 

口 支持 高 性 能 的 并 行 计算 。 
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2.3.1 1IPython 并 行 计算 


IPython 对 并 行 与 分 布 式 计算 的 支持 非常 好 ， 可 以 满足 大 规模 计算 需求 。IPython 还 具有 开发 、 
执行 、 调 试 和 监控 并 行 与 分 布 式 计算 的 能 力 。IPython 支 持 多 种 并 行 方式 ， 如 下 所 示 ,， 还 支持 不 同 
并 行 方式 的 混合 形式 。 

口 单程 序 多 数据 ( single program multiple data，SPMD ) 并 行 

口 多 程序 多 数据 ( multiple program multiple data，MIMD ) 并 行 
口 消息 传递 接口 (Message Passing Interface，MPI ) 

口 任务 与 数据 并 行 

口 用 户 自 定义 方法 








2.3.2 IPython Notebook 


IPython Notebook 是 基于 网 络 的 交互 式 编程 环境 。 通 过 这 个 环境 可 以 创建 IPython Notebook。 
它 可 以 识别 单个 用 户 输入 的 文字 或 代码 表达 式 , 运行 它们 ,然后 把 结果 返回 给 用 户 。 这 种 功能 
称 为 读 取 - 求 值 -输出 循环 (read, evaluate, print, and looping，REPL )。 在 IPython Notebook 里 ， 用 
户 还 可 以 使 用 下 面 的 程序 库 : 




































































DD IPython 
OD GMQ (ZMQ ) 
口 Tornado ( 网 络 服务 器 ) 





D jQuery 
口 Bootstrap (前端 框架 ) 
口 MathJax 





运行 Notebook 程 序 ， 会 在 电脑 上 创建 一 个 局 域 网 服务 器 ， 用 浏览 器 就 可 以 打开 。IPython 
Notebook 是 JSON 格 式 的 文档 ， 可 以 用 代码 、 普 通 文字 "、 数 学 运算 、 图 像 和 图 表 等 形式 完成 不 同 
类 型 的 计算 。IPython Notebook 也 可 以 通过 网 页 操作 或 命令 行 代 码 转换 成 不 同 的 格式 ， 目 前 支持 
HTML、LaTeX、PDF、Python 等 多 种 格式 。 


IPython Notebook 的 程序 开发 过 程 如 下 图 所 示 。 首 先 准 备 数据 ， 如 下 图 左边 所 示 ， 然 后 开发 
程序 并 管理 版 本 。 程 序 开发 完毕 后 ， 还 可 以 导出 为 不 同 格式 。 


























支持 Markdown 语 法 。 一 一 译 者 注 
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F 一 一 一 
科研 报告 
在 线 数据 IPython 
2 Notebook 
维基 百科 / 
和 博客 / 
一 在 线 图 片 
文本 文件 ， 程序 版 本 
数据 库 ， 控制 系统 Notebook 
，， 构 化 的 Viewer 
输入 数据 














IPython 还 有 一 些 非常 给 力 的 特性 。 











口 可 以 与 GUI 程序 库 和 工具 箱 实现 无 颖 衔接 。IPython 可 以 和 许多 Python 版 的 GUI 工具 箱 /程序 
库 无 颖 衔接 ， 如 Tkinter 、PyGTK 、PyQt 和 wxPython。 

口 集群 管理 :IPython 可 以 通过 MPL/ 异 步 状 态 回 调 信息 对 集群 计算 进行 管理 。 

口 类 UNIX 运 行 环境 : IPython 的 默认 功能 与 UNIX 命 令 行 环境 类 似 ， 支 持 客户 自 定 义 。 























下 载 源 代码 
> 可 以 从 网 站 http:/www.packtpub.com 登 录 你 的 账户 ,下 载 从 Packt 出 版 社 购买 
Q 的 所 有 图 书 的 源 代 码 。 如 果 是 通过 其 他 途径 购买 的 Packt 图 书 ， 可 以 访问 


http://www.packtpub.com/support， 注 册 一 个 账户 ， 源 代码 会 发 到 你 的 邮箱 。 


IPython 用 户 界 面 的 截图 如 下 页 所 示 ( 源 自 http://ipython.org/notebook.html )。 


IPython 命 令 行 工 具 的 特性 有 以 下 各 点 。 








D Tab 键 自动 补 全 : 用 户 不 需要 在 IPython 输 入 全 部 代码 。 只 要 剖 入 前 面 一 部 分 , 再 按 Tab 键 ， 
IPython 就 会 把 剩 下 的 命令 自动 补 全 。 
口 浏览 对 象 结构 : 对 象 的 各 种 属性 都 可 以 通过 IPython 命 令 行 的 自省 功能 进行 检查 。 
口 魔法 函数 : 有 许多 魔法 函数 可 供用 户 使 用 。 
D 运行 与 编辑 代码 : 卫 ython 命 令 行 可 以 运行 并 编辑 Python 脚本 。 

口 调试 : IPython 命 令 行 具有 十 分 强大 的 调试 功能 。 

口 历史 信息 : IPython 命 令 行 可 以 存储 历史 命令 和 运行 结 

口 系统 命令 : 用 户 还 可 以 使 用 系统 命令 。 

口 自 定 义 系统 命令 别名 : 用 户 可 以 根据 自己 的 需要 为 系统 命令 定义 别名 。 
D 配置 文件 : IPython 环 境 可 以 用 配置 文件 进行 自 定义 。 
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口 启动 文件 : 用 户 可 以 设置 IPython 会 话 启动 时 运行 的 命令 和 代码 。 


IPy IPython Dashboard %] Ipy spectrogram 


一 [© 127.0.0.1:8888/a5222740-848b-4ac1-b212-d732c9F8F78b 








IPI[y]: Notebook spectrogram Last saved: Mar 07 11:14 PM 
File Edit View Insert Cell Kernel Help 








@ | || 


Simple spectral analysis 


An illustration of the Discrete Fourier Transform 


Using windowing, to reveal the frequency content of a sound signal. 


We begin by loading a datafile using SciPys audio file support: 


In [1]: from scipy.io import wavfile 
rate, x = wavfile.read('test_ mono.wav') 


And we can easily view its spectral structure using matplotlib's builtin specgram routine: 
In [2]: fig, (axl, ax2) = plt.subplots(1, 2, figsize=(12, 4)) 
ax1.plot(x); axl.set title('Raw audio signal') 


ax2. specgram(x); ax2.set_title('Spectrogram'); 


Raw audio signal 
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IPython Notebook 的 用 户 操 作 界 面 


2.4 用 SympPy 进行 符号 计算 


符号 计算 主要 是 操作 数学 对 象 与 表达 式 。 这 些 数学 对 象 与 表达 式 可 以 直接 表现 自己 , 它们 不 
是 估计 /近似 值 。 表 达 式 /对 象 是 未 经 估计 的 变量 ， 以 符合 形式 呈现 。 


我 们 用 下 面 的 图 来 对 比 普通 计算 与 计算 机 符号 计算 的 差异 。 每 种 计算 形式 有 两 个 例子 。 示例 
A1 与 示例 A2 是 普通 计算 示例 ， 示 例 B1 与 示例 B2 是 符号 计算 示例 。 示 例 A1 与 示例 A2 都 有 明确 的 
输出 结果 。 让 我 们 再 看 看 示例 B1 与 示例 B2 的 输出 结果 。 示 例 B1 的 输出 结果 是 sqrt (3) ,没有 进 
行 数值 估计 ， 只 是 用 符号 表示 。 这 是 因为 在 符号 计算 中 ， 如 果 sqrt 函 数 的 参数 不 是 一 个 能 够 开 
尽 的 数 "， 那 么 它 就 直接 用 符号 表示 结果 。 另 一 方面 ， 在 示例 B2 中 ， 输 出 结果 更 加 简单 。 这 是 因 
为 在 这 个 示例 中 , 表达 式 是 可 以 进一步 简化 的 ; sart (27) 可 以 写成 sqrt (9 x 3) 或 3 (sqrt (3 ) ， 




































































@ 能 开 尽 的 数 则 如 4、9、16 等 。 一 一 译 者 注 
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因此 可 以 简化 成 3sgqrt (3) 。 


























示例 Al: 示例 B1: 
>>>importmath >>>import sympy 
>>>math.sqaqrt (16) >>>math.sgqrt (3}) 
过 2 所 sqrt (3) 
示例 Al: 示例 B2 : 
>>> importmath >>> importsympy 
>>> math.sart (27) >>> Sympy .sqrt (27) 
5.19615242271 3*58grt (3 

A. 普通 计算 B. 符号 计算 














普通 计算 与 符号 计算 的 对 比 


2.4.1 SympPy 的 主要 特点 


SymPy 是 一 个 符号 计算 程序 库 ， 具有 各 种 类 型 的 符号 计算 能 力 。 它 可 以 简化 数学 表达 式 ( 就 
像 前 面 看 到 的 sqrt (27) )， 计 算 微分 、 积 分 与 极限 ， 求 方程 的 解 、 和 矩阵 运算 以 及 各 种 数学 函数 。 
所 有 这 些 功 能 都 通过 数学 符号 完成 。 


下 面 介绍 SymPy 的 主要 特点 。SymPy 程 序 库 由 若干 核心 能 力 与 大 量 的 可 选 模块 构成 。SymPy 
的 主要 功能 如 下 所 示 。 


口 核心 能 力 包 括 基 本 算术 与 公式 简化 ， 以 及 模式 匹配 函数 ， 如 三 角 函 数 、 双 曲 函 数 、 指 数 
函数 与 对 数 函 数 等 。 

口 支持 多 项 式 运 算 ， 例 如 基本 算术 、 因 式 分 解 以 及 各 种 其 他 运算 。 

口 微 积分 功能 ， 包 括 极限 、 微 分 与 积分 等 。 

口 各 种 类 型 方程 式 的 求解 ， 例 如 多 项 式 求解 、 方 程 组 求解 、 微 分 方程 求解 。 
口 离散 数学 。 

口 矩阵 表示 与 运算 功能 。 

口 几何 函数 。 

口 借助 pyglet 外 部 模块 画图 。 

口 物理 学 支持 。 

口 统计 学 运算 ， 包 括 概率 与 分 布 函数 。 

口 各 种 打印 功能 。 

口 多 种 编程 语言 "与 LaTeX 代 码 生 成 功能 。 






























































QD C、Fortran、JavaScript、Mathematica、MATLAB 和 Python。 一 一 译 者 注 
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2.4.2 为 什么 用 SymPy 


SymPy 是 一 个 开源 的 程序 库 ， 采用 自由 的 BSD 许 可 证 。 用 户 可 以 自由 调整 源 代码 。 这 在 其 他 
软件 中 都 不 能 实现 ， 例 如 Maple 和 Mathematica。SymPy 的 另 一 个 优势 是 ， 其 设计 、 开 发 与 执行 都 
是 在 Python 中 。 对 Python 开发 者 来 说 ， 这 是 一 个 额外 的 优势 。 与 其 他 工具 相 比 ， 这 个 程序 库 具 有 
高 度 的 扩展 性 。 























2.5 ”画图 程序 库 


Python 的 话题 程序 库 是 matplotlib。 它 提供 了 一 个 面向 对 象 的 API, 让 用 户 可 以 在 用 各 种 Python 
的 GUI 工 具 箱 开发 的 应 用 程序 中 增加 图 表 。SciPy/NumPy 都 使 用 matplotlib 绘 制 数组 的 二 维 图 。 
matplotlib 的 设计 理念 是 简化 画图 功能 , 用 户 调用 极 少 的 函数 就 能 轻松 地 创建 各 种 图 形 , 有 时 甚至 
只 需要 调用 一 个 函数 。 还 有 一 些 专业 的 工具 箱 /API 扩 展 了 matplotlib 的 功能 。 这 些 工具 中 ,， 有些 是 
与 matplotlib 绑 定 在 一 起 的 ， 有 些 需 要 单独 下 载 。matplotlib 的 部 分 扩展 API 如 下 。 


口 Basemap， 绘 制 地 图 的 工具 箱 。 

口 Cartopy 程 序 包 ， 让 地 图 数据 分 析 与 可 视 化 更 加 简单 。 
口 Excel 工 具 ， 可 以 让 matplotlib 与 Excel 进 行 数据 交互 。 
口 Qt 与 GTK+ 开 发 接口 。 

口 mplot3d， 可 以 绘制 三 维 图 。 


下 面 的 图 表 中 演示 了 用 matplotlib 绘 制 的 不 同 图 形 。 这 些 截 图 都 源 自 matplotlib 网 站 
(http:/matplotlib.org/users/screenshots.html )。 












































不 同类 型 图 形 的 差异 
简单 图 形 多 坐标 轴 的 子 图 示例 











Atale of 2 subplots 





























全 Oo 同 园 个 9l@|| 可 自 贺 




















2.5 


画图 程序 库 
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路 径 示例 
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2.6 小 结 








这 一 章 介绍 了 数学 与 数值 分 析 的 许多 概念 , 包括 线性 与 非 线 性 方程 组 、 最 优化 方法 、 内 插 法 、 
外 搬 法 、 数 值 微 分 与 积分 、 微 分 方程 与 随机 数 生 成 器 。 





本 章 的 第 二 部 分 简要 介绍 了 用 Python 语言 进行 科学 计算 的 程序 包 / 工 具 箱 /API， 还 介绍 了 
NumPy 、SciPy、IPython 、SymPy 、matplotlib 和 pandas 的 功能 与 特性 。 


下 一 章 将 介绍 如 何 为 科学 计算 准备 数据 与 管理 数据 。 





有 效 地 制造 与 管理 科学 数据 











这 一 章 介 绍 科学 计算 数据 。 首 先 介绍 数据 的 基本 概念 , 然后 介绍 管理 数据 与 对 数据 进行 不 同 
操作 的 各 种 工具 箱 ， 之 后 介绍 生成 模拟 数据 的 不 同 数据 格式 和 基于 随机 数 的 技术 。 


这 一 章 将 介绍 以 下 主题 : 


口 数据 、 信 息 与 知识 的 基本 概念 
口 各 种 数据 存储 软件 与 工具 的 概念 
口 可 以 对 数据 进行 的 操作 

口 科学 数据 的 标准 格式 

口 现成 的 数据 集 
口 用 随机 数 生成 模拟 数据 
口 大 规模 数据 集 简 介 























3.1 数据 的 基本 概念 


数据 是 关于 实体 的 真实 情况 和 数字 的 原始 和 未 经 梳理 的 形式 。 任 何 未 经 梳理 /原始 的 数量 与 
数值 ， 比 如 一 系列 数字 或 字符 ， 只 要 能 够 表示 真实 世界 中 的 概念 、 现 象 、 对 象 和 实体 ， 就 可 以 视 
为 数据 。 数 据 没 有 时 空 限 制 ， 任 何 地 方 都 有 数据 。 


数据 可 以 被 转换 成 信息 ,可 以 用 于 实现 其 所 在 组 织 的 目标 。 当 数据 被 赋予 某 种 属性 时 ， 它 就 
成 了 信息 。 准 确 及 时 的 数据 ， 如 果 按 照 特定 的 目的 加 以 组 织 和 准备 并 在 特定 的 场景 中 展示 出 来 ， 
就 可 以 称 为 信息 。 这 样 就 为 数据 赋予 了 意义 与 实用 性 。 

再 加 上 专业 经 验 , 数据 与 信息 就 可 以 转换 成 知识 。 知 识 需 要 与 具体 问题 相关 的 大 量 数据 处 理 
经 验 ， 例 如 商品 定价 与 天 气 预 测 。 


现在 ,让 我 们 研究 一 个 关于 数据 、 信 息 与 知识 的 科学 案例 。79°F 显 然 只 是 一 个 温度 计 读 数 ， 
是 数据 。 如 果 为 这 个 读数 增加 一 些 细节 ， 例 如 这 个 温度 是 印度 重 买 印度 门 2015 年 3 月 3 日 下 午 5 点 
30 分 的 温度 , 那 它 就 是 信息 了 。 根据 多 个 年 份 某 一 周 的 每 小 时 温度 读数 ,预测 下 一 年 同一 周 的 温 
度 就 是 知识 。 类 似 地 ,根据 印度 北部 过 去 两 天 下 大 雪 的 信息 ,预测 印度 中 部 的 气温 将 下 降 几 度 就 
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是 知识 。 数 据 、 信 ， 
取信 息 









































息 与 知识 的 关系 如 下 图 所 示 。 这 个 过 程 是 先 从 实验 中 收集 数据 ， 再 从 数据 中 提 
， 最 后 对 信息 进行 细致 的 分 析 ， 从 中 获取 知识 。 























数据 、 信 息 、 知 识 金字 塔 
3.2 ”数据 存储 软件 与 工具 箱 


计算 机 科学 的 概念 日 新 月 异 , 存储 数据 的 软件 和 工具 
储 数据 的 软件 和 工具 箱 。 主 要 有 两 类 数据 存储 软件 与 工具 





也 在 快速 进化 。 目前, 










































































































生 面 上 有 许多 存 
箱 , 在 每 一 类 中 还 有 一 些 子 类 。 用 于 管 
理 与 存储 数据 的 软件 与 工具 箱 分 类 如 下 图 所 示 。 
结构 化 CSV 文 件 ， 
| 数据 | 宽度 固定 文件 
了 车 杂 七 B 件 了 
数据 文档 
半 结 构 化 XML 
数据 JSON 
EN 
分 层 数 据 库 ， 
网 络 模 型 数据 库 
~、 
NN 
0SQL 数 据 库 / 
内 存 数 据 库 / 
到 形 数据 库 
NE 














数据 存储 与 管理 的 软件 与 工具 分 类 
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3.2.1 文件 


第 一 种 存储 数据 的 软件 与 工具 类 型 是 不 同 格式 的 纯 文本 。 纯 文本 文件 又 可 以 分 为 结构 化 文件 
与 非 结 构 化 文件 两 种 子 类 型 。 结 构 化 文件 是 指 按照 预先 设 定好 的 固定 格式 存储 数据 。 而 在 非 结构 
化 文件 中 , 数据 存储 没有 预先 设 定 的 格式 。 通 常 ， 这 两 种 类 型 的 文件 都 可 以 存储 文本 数据 ， 而 在 
一 些 特殊 的 科学 软件 程序 中 ， 还 可 以 存储 图 像 、 音 频 、 视 频 和 其 他 非 文本 数据 。 


1. 结构 化 文件 


结构 化 文件 的 一 个 例子 是 过 号 分 割 值 (comma-separated values，CSV ) 文本 文件 。 在 这 类 文 
件 中 ,数据 字段 是 通过 逗号 或 分 隔 符 进行 区 分 的 。 分隔 符 可 以 是 任 字 符 或 符号 。 分 隔 符 最 好 不 要 
使 用 存储 数据 中 已 有 的 符号 。 假 如 要 存储 财务 数据 ， 那 么 逗号 就 不 适合 作为 分 隔 符 。 


例如 下 面 的 CSV 文 件 : H.K. Mehta, 08-Oct-1975, Higher Education department, 
S0432 


这 条 记录 中 包含 姓名 、 出 生日 期 、 部 门 名 称 和 工资 。 对 于 这 个 CSV 文 件 ， 空 格 、 点 号 (. )、 
逗号 (,)、 连 字符 (- ) 都 不 适合 作为 分 隔 符 。 如 果 我 们 选择 其 中 之 一 一 一 空格 、 点 号 、 逗 号 或 连 
字符 一 一 作为 分 隔 符 ， 那 么 逗号 会 把 工资 分 割 成 两 个 数值 ， 连 字符 会 把 出 生日 期 分 割 成 三 个 值 ， 
点 号 〈.) 会 把 姓名 分 割 成 三 个 值 ， 空 格 会 把 部 门 名 称 分 割 成 三 个 值 。 对 于 这 条 记录 ， 分 隔 符 可 
以 是 其 他 符号 ， 例 如 问号 (? ) 和 管线 命令 (|， 竖 杠 )。 通 常 ， 在 商务 数据 中 ， 管 线 命令 (| ) 是 
最 常用 的 分 隔 符 。 


宽度 固定 文件 ( fixed-width file ) 是 另 一 种 结构 化 文件 。 在 这 类 文件 中 ， 每 个 字段 的 宽度 是 
预先 设 定好 的 ,一 直 会 保持 不 变 。 如 果 某 个 记录 中 的 一 个 字段 宽度 比 固定 值 小 ,就 补 空格 直到 达 
到 固定 宽度 ; 如 果 比 固定 值 大 ， 就 截断 以 满足 宽度 要 求 。 


2. 非 结 构 化 文件 


非 结构 化 文件 的 例子 包括 网 络 服务 器 日 志文 件 、 图 书 、 期 刊 和 电子 邮件 。 这 类 文件 包括 文本 
与 非 文本 数据 。 文 本 数据 是 指 可 以 用 某 种 字符 编码 原则 表示 的 数据 ， 例 如 美国 信息 交换 标准 码 
(American Standard Code for Information Interchange，ASCI ) 和 Unicode 码 。 数 据 存 储 文件 还 有 另 
一 种 类 型 ， 称 为 半 结 构 化 文件 。 这 类 文件 不 具备 关系 型 数据 库 使 用 的 常规 格式 。 半 结构 化 数据 通 
过 标签 和 其 他 标记 区 分 字段 ， 为 标签 赋予 适当 含义 ， 从 而 创建 记录 或 字段 。 这 类 数据 的 典型 例子 
是 XML 和 JSON 格 式 。 这 些 数据 格式 的 优点 是 具有 语言 和 系统 平台 独立 性 。 因 此 ， 操 作 结 果 不 会 
随 语言 与 系统 平台 的 变化 而 改变 。 
















































































































































































3.2.2 ”数据 库 
第 二 类 数据 存储 产品 是 数据 库 。 除 了 文件 , 还 有 许多 数据 库 可 以 存储 计算 用 的 数据 。 数 据 库 
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也 可 以 按照 有 无 模式 分 为 两 类 : 基于 模式 的 数据 库 和 无 模式 的 数据 库 。 基 于 模式 的 数据 库 是 传统 
数据 库 , 需要 用 户 在 存储 数据 前 先 创 建 数据 对 象 的 结构 。 而 无 模式 的 数据 库 是 大 型 数据 库 领 域 的 
新 方向 ， 致 力 于 满足 大 型 应 用 程序 的 数据 存储 需求 。 基 于 模式 的 数据 库 包括 MySQL 、Oracle、 
MS SQL Server、Postgres 等 ， 无 模式 的 数据 库 包 括 MongoDB 、HBSE 和 Cassandra 等 。 




















3.3 ”常见 的 数据 操作 
除了 数据 存储 之 外 ， 想 要 高 效 地 管理 与 使 用 数据 ， 还 要 执行 很 多 操作 。 


口 数据 耕耘 ( data farming ): 利用 高 性 能 计算 方法 对 大 型 数据 库 进 行 多 次 仿真 的 过 程 称 为 数 
据 耕 耘 。 数 据 耕 克 的 输出 结果 可 以 对 数据 的 表层 特征 与 深层 特征 进行 全 面 的 描述 ， 它 可 
以 辅助 决策 制定 过 程 。 数 据 耕 耘 是 一 个 多 学 科 交 叉 的 领域 ， 包 括 高 性 能 计算 、 数 据 分 析 
与 可 视 化 以 及 大 型 数据 库 。 

口 数据 管理 : 数据 管理 是 一 个 广泛 的 概念 ， 由 许多 数据 操作 组 成 ， 如 下 所 示 。 


和 数据 治理 ( data governance ): 这 是 数据 管理 的 主要 控制 部 分 ， 目 的 是 保证 输入 数据 满 
足 模 型 需要 的 标准 格式 。 数 据 处 理 可 以 通过 手工 或 自动 化 流程 进行 控制 。 

日 数据 架构 、 分 析 与 设计 : 数据 架构 包括 数据 采集 所 需 的 各 种 模型 、 流 程 、 算 法 、 规 则 
与 标准 ， 以 及 数据 存储 的 结构 、 数 据 集成 的 方法 等 。 制 定数 据 清洗 与 转换 流程 的 相关 
分 析 与 设计 原则 ， 对 整个 项 目 都 是 有 益 的 。 

@ 数据 库 管理 : 数据 库 管 理 是 一 个 涉及 多 项 活动 的 复杂 任务 ， 包 括 数据 库 的 设计 与 开发 ， 
数据 库 监 控 ， 系 统 整体 监控 ， 数 据 库 性 能 改善 ， 数 据 库 能 力 提升 与 扩展 计划 的 制定 ， 
数据 安全 的 计划 、 实 施 与 维护 等 。 

和 数据 安全 管理 : 这 包括 数据 安全 的 相关 管理 活动 ， 包 含 接 入 权限 的 管理 、 数 据 私密 性 

管理 以 及 其 他 与 数据 安全 相关 的 内 容 ( 例如 数据 清洗 /清除 、 加 密 、 和 覆盖 与 备份 )。 

@ 数据 质量 管理 : 这 是 与 数据 质量 改善 相关 的 任务 ， 包 括 许多 操作 ， 如 下 所 示 。 


仿 数据 清洗 ， 对 有 错误 或 不 准确 的 数据 ( 即 不 干净 的 数据 ) 进行 检验 与 校正 。 

信 数据 完整 性 ( data integrity ) 检验 ， 确 保 不 同时 期 与 不 同 处 理 阶 段 的 数据 是 准确 一 

致 的 。 

信 数据 质量 增强 〈 data enrichment )， 对 数据 进行 精炼 与 增强 ， 噜 除数 据 中 的 拼写 与 印 

刷 错 误 , 改进 数据 质量 。 例 如 , 任何 时 候 已 获取 的 分 数 都 不 可 能 超过 可 能 的 最 高 分 。 

这 时 ， 我 们 必须 改正 那些 分 数 比 最 高 分 还 高 的 数据 库 记 录 。 

分 数据 集成 (data integration )， 是 一 个 复杂 的 流程 ， 需 要 丰富 的 经 验 ， 因 为 它 需要 将 
多 个 数据 源 的 数据 转换 成 统一 格式 ， 并 组 合 在 一 起 ， 而 且 转 换 过 程 不 能 影响 数据 的 
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sm 数据 仓库 管理 : 数据 仓库 管理 包含 数据 集 市 的 准备 工作 、 数 据 挖掘 与 各 种 数据 处 理 相 
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关 操 作 的 实现 ， 例 如 数据 抽取 、 转 换 与 加 载 (extraction, translation, and loading，ETL ) 
操作 。 

到 元 数据 管理 : 这 是 对 存储 在 数据 库 中 的 数据 属性 进行 管理 的 过 程 。 这 些 数据 称 为 元 数 
据 (metadata )。 元 数据 包括 存储 数据 的 描述 、 数 据 创 建 与 修改 的 具体 时 间 、 数 据 的 所 
有 者 、 物 理 设 备 的 位 置 以 及 其 他 相关 细节 。 

口 数据 输入 与 输出 : 任何 一 种 应 用 程序 都 包括 许多 重要 的 操作 ， 无 论 是 商业 产品 还 是 科学 
产品 。 一 般 情 况 下 ， 在 进行 输入 与 输出 操作 时 必须 小 心 谨慎 。 用 户 从 应 用 程序 中 输出 或 
导入 数据 时 ， 需 要 考虑 应 用 程序 自身 的 特性 。 因 此 ， 需 要 使 用 恰当 的 数据 格式 。 

口 科学 数据 存档 : 这 个 过 程 是 指 ， 根 据 应 用 程序 和 组 织 制定 的 策略 中 关于 科学 家 应 该 存储 
多 少数 据 ， 以 及 数据 的 接 人 权限 等 级 管理 的 相关 内 容 ， 对 科学 数据 进行 存档 ， 以 备 长 期 
使 用 。 
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Python 的 科学 数据 存储 有 多 种 格式 /形式 。 通 常 ， 大 多 数 的 科学 计算 API 语 言 /工具 包 支 持 这 
些 数据 格式 的 输入 和 输出 。 这 些 格式 中 比较 常用 的 如 下 所 示 。 

口 网 络 通用 数据 格式 (Network Common Data Form，NetCDF ): 它 是 一 种 自 描述 、 与 机 器 / 
设备 /平台 无 关 、 基 于 和 矩阵 的 科学 数据 格式 ， 同 时 也 是 支持 创建 、 访 问 和 共享 这 一 数据 格 
式 的 函 式 库 。 它 通常 被 拥 绑 于 一 系列 的 软件 库 中 来 生成 和 操作 。 通 常 ， 这 种 格式 被 用 于 
天 气 预 报 、 气 候 和 气象 上 的 气候 变化 、 海 洋 学 和 GIS 应 用 等 领域 。 大 部 分 GIS 应 用 都 支持 
NetCDF 格 式 作 为 输入 和 输出 格式 ， 并 且 NetCDF 还 用 于 科学 数据 交换 。 
该 格式 源 于 美国 大 气 科 学 研究 大 学 联盟 (University Corporation for Atmospheric Research ， 


UCAR ) 的 Unidata 项 目 , 该 项 目的 主页 由 他 们 建设 , 它 的 网 址 是 http://www.unidata.ucar.edu/ 
software/netcdf/docs/faq.html。 该 网 页 对 NetCDF 有 如 下 描述 : 






























































“网 络 通用 数据 格式 (NetCDF ) 是 一 组 对 短 阵 式 数 据 接 入 和 C 语 言 、Fortran、 
C++、Java 等 语言 的 自由 分 发 数据 接 入 库 的 集合 的 接口 。NetCDF 库 支持 一 种 与 机 
器 无 关 的 格式 来 表示 科学 数据 。 因 此 ， 接口 、 库 和 格式 支持 科学 数据 的 生成 、 获 
取 和 分 享 。” 

口 HDF ( Hierarchical Data Format， 分 层 数据 格式 ): 这 是 一 组 文件 格式 ,已 演变 出 不 同 的 版 
本 (HDF4 和 HDF5 )。HDF 格 式 指 一 种 为 存储 和 处 理 大 容量 科学 数据 设计 的 文件 格式 及 相 
应 库 文 件 。HDF 最 早 由 美国 国家 超级 计算 应 用 中 心 (NCSA ) 开 发 , 目前 在 非 型 利 组织 HDF 
小 组 的 维护 下 继续 发 展 。 该 小 组 确保 HDF5 格 式 的 进一步 发 展 和 相关 的 工具 /技术 的 发 展 。 
HDF 现 在 受到 众多 商业 与 非 商业 平台 的 支持 ,包括 Java、MATLAB/Scilab 、Octave 、IDL、 
Python 和 R。 
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口 FITS 格 式 ( Flexible Image Transport System ， 普 适 图 像 传输 系统 ): 这 是 一 种 可 用 于 存储 、 
传输 、 操 作 科研 或 其 他 用 途 图 片 的 一 种 数据 文件 格式 。 这 种 格式 广泛 用 于 天 文学 领域 。 
它 有 好 几 种 方式 描述 和 元 数据 一 起 存储 的 光度 学 和 空间 校准 信息 。FITS 格 式 的 第 一 次 标 
准 化 出 台 于 1981 年 。 该 标准 最 近 的 版 本 发 布 于 2008 年 。FITS 也 可 以 用 于 存储 非 图 像 数 据 ， 
如 光谱 、 数 据 立 方 甚至 是 数据 库 。FITS 还 有 一 个 重要 的 特征 ， 那 就 是 该 格式 的 新 版 本 总 

是 后 向 兼容 的 。 另 一 个 重要 特征 是 ,文件 中 的 元 数据 用 人 类 可 读 的 ASCII 码 存储 于 头 文件 

中 。 这 有 助 于 用 户 分 析 文 件 并 理解 存储 于 其 中 的 数据 内 容 。 

波段 交叉 数据 /波段 交叉 格式 (Band-Interleaved Data/Band-Interleaved Files ): 它们 是 二 进 

制 格式 。 这 意味 着 数据 被 存放 在 非 文本 文件 中 ， 通 常 这 种 数据 格式 用 于 遥感 和 高 端 GIS 。 

这 些 文件 有 两 种 子 类 型 ， 分 别 是 波段 按 行 交 叉 格 式 (Band Interleaved by Line，BIL ) 和 波 

段 按 像 元 交叉 格式 (Band Interleaved by Pixel，BIP )。 

通用 数据 格式 ( Common Data Form，CDF ): 这 是 一 种 存放 标量 和 与 平台 无 关 的 多 维 数据 

的 数据 格式 。 因 此 它 被 用 于 存放 科学 数据 ， 也 是 一 种 很 受 研 究 人 员 和 机 构 欢迎 的 数据 交 

换 格式 。 空 间 物 理 数据 辅助 系统 ( Space Physics Data Facility，SPDF ) 提供 了 一 个 CDF 软 

件 工 具 ， 作 为 蕊 达 德 太空 飞行 中 心 (Goddard Space Flight Center，GSFC ) 操作 数据 的 工 

具 。CDF 还 提供 了 支持 各 种 编程 语言 、 工 具 和 API 的 良好 接口 , 包括 C、C++、C#、Fortran、 

Python 、Perl 、Java、MATLAB 和 IDL。 


各 种 科学 数据 格式 有 一 些 共同 的 特征 ， 举 例如 下 。 


口 这 些 格 式 支 持 顺序 访问 和 随机 访问 数据 。 

口 它们 都 用 于 有 效 地 存储 大 量 的 科学 数据 。 

口 这 些 数据 格式 包括 支持 自我 描述 能 力 的 元 数据 。 

口 这 些 格式 默认 支持 调用 对 象 、 网 格 、 图 像 和 N 维 数组 。 
口 这 些 格式 是 不 可 更 新 的 。 用 户 可 以 在 最 后 添加 数据 。 
口 它们 都 支持 机 器 可 移植 性 。 
口 它们 中 的 大 部 分 格式 都 是 标准 化 的 。 


这 里 讨论 的 数据 格式 可 用 于 存储 任意 主题 和 其 子 域 的 数据 。 另 外 还 有 一 些 为 特定 主题 专门 设 
计 的 数据 格式 。 下 面 列 举 了 这 些 数据 格式 。 这 里 没有 给 出 这 些 数据 格式 的 详细 描述 , 读者 可 以 参 
考 它们 的 原始 。 


口 用 于 天 文学 领域 的 数据 格式 


mm FITS: FITS 天 文学 数据 和 图 像 格式 〈 .fit 或 .fits ) 
SP3 : GPS 和 其 他 卫星 轨道 ( .sp3 ) 


口 用 于 存储 医学 图 像 数据 的 格式 
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ms DICOM: DICOM 标 注 医 学 图 像 (.dcm，.dic ) 


口 用 于 医学 和 生理 学 数据 的 格式 


mm Affymetrix: Affymetrix 数 据 格式 ( .cdf, .cel, .chp，, .gin，.psi ) 
sm BDF: BioSemi 数 据 格式 ( .bdf ) 
@ EDF: 欧洲 数据 格式 〈.edf ) 


口 用 于 化 学 和 分 子 生物 学 的 数据 格式 


m MOL 

mm SDF 

m SMILES 
m PDB 

m GenBank 
m FASTA 


口 用 于 地 震 学 (与 地 震 相 关 的 科学 和 工程 ) 的 数据 格式 
m NDK: NDK 地 震 学 数据 格式 ( .ndk ) 
口 用 于 天 和 气 数据 的 格式 


@ GRIB: GRIB 科 学 数据 格式 ( .grb，.grib ) 











3.5 ”现成 的 标准 数据 集 


一 些 政府 、 协 作 组 织 和 研究 机 构 致 力 于 不 断 地 开发 和 维护 不 同 主题 和 主题 下 不 同 领域 的 标准 
数据 集 。 这 些 数据 集 可 以 供 公 众 免费 下 载 , 或 者 离线 工作 , 又 或 者 利用 这 些 数据 集 进 行 在 线 运算 。 
一 个 这 样 重 要 的 项 目 叫 作 开放 科学 数据 云 ( Open Science Data Cloud，OSDC )， 它 在 每 一 个 主题 
下 都 有 几 个 数据 集 。 现 在 可 以 获得 各 个 开源 数据 源 的 清单 了 。 可 以 通过 它们 的 网 站 人 口 
https://www.opensciencedatacloud.org/publicdata/ 来 获取 。OSDC 里 的 一 个 主题 数据 集 列表 如 下 。 


口 农业 
m 美国 农业 部 植物 数据 库 
口 后 物 


m 1000 个 基因 组 

m 基因 表达 数据 库 GEO 
MIT 癌症 基因 组 数据 
a 和 蛋白质 数据 银行 
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口 气候 /天 气 


a 澳大利亚 天 气 

加拿大 气象 中 心 

和 UEA 的 气候 数据 (每 月 更 新 ) 
到 自 1929 年 的 全 球 气候 数据 


复杂 网 络 


和 交叉 引用 的 DOI URLs 
@ DBLP 引 用 数据 集 
@ NIST 复 杂 网 络 数据 集 
@ UFL 稀 琉 和 矩阵 集 
和 WSU 图 数据 库 

















口 计算 机 网 络 


来 自 Common Crawl 2012 年 的 3.5 B 的 网 页 

@ 印第安 纳 大 学 100 000 个 用 户 53.5 B 的 网 页 点 击 信 |) 
和 CAIDA 互 联网 数据 集 

和 ClueWeb09 的 1 B 网 页 





证 





口 数据 竞赛 


a 机 器 学 习 中 的 挑战 

@ 关于 社会 福利 的 DrivenData 竞 赛 
@ ( 自 2009 年 的 ) ICWSM 数 据 挑 战 
@ Kaggle 竞 赛 数据 


经 济 


a 美国 经 济 协会 (AEA ) 
m UMD 的 EconData 
和 网 络 产品 编码 数据 库 











口 能 源 


m AMPds 
m BLUEd 
m Dataport 
m UK-Dale 


口 财经 
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@ CBOE 未 来 交易 
和 谷歌 财经 
和 谷歌 趋 势 
m NASDAQ 


口 地 理 空间 /GIS 


口 


BODC 一 一 大 约 22 000 变 量 的 海洋 数据 

@ GitHub 上 的 剑桥 、 马 萨 诸 塞 州 、 美 国 、GIS 数 据 
EOSDIS 一 NASA 的 地 球 观 察 系统 数据 
ASU 的 地 理 空间 数据 


医疗 


m EHDP 大 型 健康 数据 集 
@ Gapminder 世 界 人 口 数 据 库 
m 美国 医疗 覆盖 数据 库 (MOCD ) 
医疗 数据 文件 


图 像 处 理 


m 2 GB 的 猫 的 图 片 

a 图 片 的 情感 分 类 

m 人 脸 识 别 基准 

m MIT 的 大 规模 视觉 记忆 刺激 
@ MIT 的 SUN 数 据 库 




















口 机 器 学 习 


@ 查询 歌手 资料 的 月 度数 据 

m eBay 线 上 交易 数据 ( 2012 ) 

@ IMDb 数据 库 

m 用 于 分 类 、 回 归 和 时 间 序 列 的 Keel 数 据 仓库 
到 百 万 歌曲 数据 集 





口 博物 馆 


@ Cooper-Hewitt 的 收藏 数据 库 
a 明 尼 阿 波 利 斯 艺术 博物 馆 的 元 数据 
@ Tate 收 藏 元 数据 

@ Getty 疮 术 专 业 名 词 
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口 自然 语言 


和 Blogger 语 料 库 
m ClueWeb09 FACC 

和 谷歌 图 书 Ngrams ( 2.2 TB ) 

和 谷歌 网 页 5gram ( 2006 年 1 TB ) 





口 物理 


和 CERN 开 放 数 据 入 口 
和 NSSDC (NASA ) 550 个 航天 器 数据 





口 公共 领域 


和 CMU 的 JASA 归 档 数 据 
和 UCLA 的 SOCR 数 据 集 
@ UFO 报告 

昌 WikiLeaks 的 关于 911 的 穷 听 信息 


口 搜索 引擎 


m UMB 上 分 享 数据 的 学 术 种 子 
和 互联 网 归档 信息 中 的 Archive-it 
m DataMarket ( Qlik ) 
统计 和 研究 





四 Statista.com: 
口 社会 科学 


CMU 的 Enron 150 个 用 户 的 电子 邮件 数据 集 
来源 于 LAW 的 Facebook 社 交 网 络 ( 始 于 2007 年 ) 
田 2010 年 和 2011 年 的 Foursquare 社 交 网 络 数据 

别 2013 年 UMN/Sarwat 的 Foursquare 数 据 











口 运动 
和 Betfair 历 史 交 换 数 据 
@ Cricsheet 棱 球 比 赛 数 据 
和 1950 年 至 今 的 Ergast 一 级 方程 式 赛车 数据 (API ) 
四 美式 足球 / 英 式 足球 资源 (数据 和 API ) 
口 时 间 序 列 


MU 的 时 间 序 列 库 (TSDL ) 
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m UC 河 滨 时 间 序列 数据 集 
ma 硬盘 驱动 失败 率 





口 交通 


@ 1987 年 至 2008 年 的 航空 OD 数据 

@ 自行 车 分 享 系统 (BSS ) 数据 集 

a 湾 区 自行 车 分 享 数据 

@ 马萨诸塞 州 的 Hubway 百 万 骑 行 数据 

a 海洋 交通 一 一 船舶 轨道 、 港 口 停靠 等 数据 














3.6 ”数据 生成 


在 一 些 应 用 中 , 如果 用 户 没 有 现成 的 可 用 于 计算 的 数据 ,那么 在 做 计算 之 前 就 需要 生成 数据 。 
数据 可 以 用 三 种 方法 来 生成 : 人 工 收集 、 仪 器 收集 或 通过 计算 机 模拟 〈 对 于 一 些 特定 的 应 用 )。 


有 一 些 应 用 的 数据 必须 是 人 工 收集 的 。 例 如 ,如 果 一 个 应 用 需要 人 体 的 生物 学 数据 , 那么 可 
能 得 通过 人 工 建 立 一 个 数据 集 来 获得 数据 ， 而 该 数据 集 则 通过 采集 志愿 者 的 生物 学 数据 来 建立 。 
这 样 的 数据 必须 人 工 收集 ,无 法 通过 电脑 或 仪 需 生 成 。 对 于 这 个 特定 的 应 用 , 用户 还 可 以 从 政府 
部 门 的 数据 库 获 得 数据 ， 比 如 签证 处 理 过 程 中 收集 的 生物 学 信息 , 或 者 美国 政府 的 个 人 注册 数据 
库 ， 又 或 者 是 印度 唯一 身份 项 目 ( ADHAAR ) 收集 的 数据 。 


对 于 一 些 特定 的 实验 ,数据 可 以 通过 一 些 仪器 生成 , 这 些 仪器 提供 了 用 户 感 兴趣 的 指标 示 数 。 
例如 , 与 天 气相 关 的 数据 可 以 用 下 列 仪器 生成 : 我 们 可 以 在 不 同 地 点 放置 一 定数 量 的 温度 计 , 并 
周期 性 地 收集 它们 的 读数 。 用 一 些 专用 传感器 , 我 们 可 以 收集 天 气相 关 或 健康 相关 的 数据 。 例如， 
心率 和 血压 相关 的 信息 可 以 用 戴 在 人 身上 的 智能 腰带 或 智能 手表 来 收集 。 这些 设备 中 的 内 置 GPS 
系统 将 会 周期 性 地 用 推 或 拉 的 方法 收集 信息 。 


模拟 数据 可 以 用 于 需要 数值 或 文本 数据 的 实验 中 , 因为 这 些 数 据 可 以 不 需要 特定 的 仪器 而 在 
电脑 上 直接 生成 。 可 以 用 一 个 程序 生成 满足 预定 义 约束 条 件 的 数据 。 为 了 生成 文本 数据 ,可 以 利 
用 已 有 的 包含 文本 信息 的 离线 文本 数据 或 线 上 的 网 页 数据 , 生成 用 于 处 理 的 新 的 数据 样本 。 例 如 ， 
文本 挖 据 和 语言 学 处 理 有 时 需要 文本 样本 数据 。 





















































































































































3.7 ”模拟 数据 的 生成 构造 ) 


这 一 节 将 讨论 生成 模拟 数据 的 各 种 方法 。 还 将 给 出 一 个 用 泊 松 分 布 生 成 随机 数 的 算法 , 以 及 
这 个 算法 的 Python 实 现 。 此 外 ， 我 们 将 探索 不 同 的 文本 数据 模拟 的 方法 。 
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3.7.1 用 Python 的 内 置 函数 生成 随机 数 


Python 有 一 个 叫 作 随 机 数 的 模块 ， 该 模块 可 以 实现 基于 各 种 统计 分 布 的 伪 随 机 数 生 成 器 。 这 
个 模块 包括 各 种 随机 类 型 的 函数 ,例如 整数 、 序 列 、 列 表 的 随机 排列 ， 以 及 从 预定 义 的 总 体 中 生 
成 随机 样本 。Python 的 随机 数 模块 支持 用 各 种 统计 分 布 生 成 随机 数 , 包括 均匀 分 布 、 正 态 分 布 (高 
斯 分 布 ) 对 数 正 态 分 布 、 负 指数 分 布 、 伽 马 分 布 和 贝塔 分 布 。Python 提 供 了 冯 : 米 塞 斯 分 布 (von 
Mises distribution )， 可 以 生成 随机 角度 的 均匀 分 布 。Python 的 大 部 分 随机 数 生 成 器 模块 取决 于 
random() 基 本 函数 。 这 个 函数 在 半 开 区 间 [0.0, 1.0) 生 成 随机 浮 点 数 。 


梅森 旋转 ( Mersenne Twister ) 是 Python 中 的 主要 随机 数 生 成 器 。 它 能 够 生成 53 位 精确 的 随机 
浮 点 数字 ， 周 期 可 达到 2**19937-1。 它 的 底层 用 C 语 言 实 现 ， 所 以 线程 安全 并 且 速 度 快 。 它 是 最 
易 扩展 和 测试 的 随机 数 生成 器 之 一 。 但 是 它 并 不 是 适用 于 所 有 的 应 用 ， 因 为 它 是 完全 确定 的 。 
此 ， 它 不 适用 于 安全 相关 的 计算 。 随 机 数 模 块 还 提供 了 一 个 systemRandom 类 ， 这 个 类 用 操作 系 
统 自 带 的 os .urandom() 函数 生成 随机 数 。 这 个 类 可 为 加 密 目 的 ， 生 成 随机 数 。 


随机 模块 的 函数 是 隐藏 在 random.Random 类 中 的 已 绑 定 方法 。 另 外 ,用 户 可 以 拥有 自己 的 
Random 类 实例 。 好 处 就 是 这 个 实例 并 不 共享 状态 。 此 外 ， 如 果 用 户 要 求生 成 一 个 新 的 随机 数 生 
成 器 ， 那 么 这 个 类 也 可 以 被 扩展 /继承 来 生成 一 个 新 的 Random 子 类 。 在 这 种 情况 下 ， 用 户 可 以 改 
写 五 种 方法 : getstate()、jumpahead()、random()、seed() 和 setState()。 


让 我 们 继续 看 看 Python 随机 数 模 块 的 各 种 内 置 函 数 。 这 些 函 数 在 下 文中 将 分 别 进行 介绍 。 
1. 记 账 函数 
随机 数 模块 的 各 种 记 账 函数 如 下 。 


口 random.seed(a=None，version=2): 这 个 函数 初始 化 随机 数 生成 器 。 如 果 用 户 将 整 
数值 传 给 a， 那 么 这 个 值 就 是 初始 值 。 如 果 没 有 值 传 给 a 或 者 指定 a 的 值 是 None， 那 么 此 
刻 的 系统 时 间 会 被 当 作 seed 的 值 。 如 果 操 作 系 统 支 持 随 机 资源 ， 那 么 这 些 随机 资源 可 以 
用 作 seed 值 ， 而 不 用 系统 时 间 。 

口 random.getstate(): 这 个 函数 返回 一 个 对 象 , 该 对 象 表示 随机 数 生 成 器 当前 的 内 部 状 

态 "。 这 个 对 象 可 以 用 setstate() 函数 恢复 到 同样 的 状态 。 

Drandom.setstate(state): 状态 值 必须 是 从 getstate() 函数 调用 中 获得 的 对 象 。 然 

后 setstate 恢 复生 成 需 的 内 部 状态 到 当 getstate () 被 调用 时 的 状态 。 

口 random.getrangdbits(k) : 这 个 冰 数 返回 一 个 长 度 为 k 位 〈 比 特 ) 的 随机 长 整 型 数据 。 
这 个 函数 还 包括 MersenneTwister 生 成 器 和 其 他 几 种 可 选 的 生成 器 。 
































































































































@ 保存 起 来 可 以 降低 后 续 随 机 数 重复 的 概率 。 一 一 译 者 注 








3.7 ”模拟 数据 的 生成 (构造 ) 43 





2. 整 型 随机 数 生成 器 函数 
用 于 返回 整 型 随机 数 的 不 同 函数 如 下 。 


D random.randrange (stop) 或 random. randrange (start, stopl[, step]): 这 种 方 
法 从 给 出 的 元 素 中 返回 随机 选择 的 元 素 。 它 的 参数 含义 如 下 : start 是 范围 的 起 始 值 , 该 
起 始 值 包括 在 该 范围 内 ; stop 函 数 是 范围 的 终点 ， 该 终点 不 包括 在 该 范围 内 ; step 表 示 
相 加 的 步 长 值 以 确定 随机 数值 。 

D random.randint (a,b) : 这 个 函数 返回 一 个 在 a 到 pb 范围 内 的 整 型 值 。 


3. 随机 序列 生成 器 函数 
用 序列 操作 来 生成 一 个 新 的 随机 序列 或 子 序列 的 各 种 函数 列举 如 下 。 


口 random.choice (seq): 该 函数 返回 一 个 非 空 的 segq 序 列 中 的 随机 元 素 。sea 字 符 必须 是 
非 空 的 。 如 果 sea 是 空 的 ， 那 么 该 函数 会 报错 / 抛 出 异常 ， 即 IndexError。 

口 random.shuffle(x): 该 函数 混合 x 序列 里 的 所 有 元 素 。 混 合意 味 着 各 元 素 的 位 置 将 在 
列表 变量 中 变化 。 

口 random.sample (population，k): 这 个 函数 返回 一 个 总 体 中 的 k 位 长 的 唯一 随机 元 素 
列表 。 总 体 必 须 是 一 个 序列 或 集合 。 这 个 函数 通常 用 于 没有 替换 的 随机 抽样 。 此 外 ， 总 
体 的 各 元 素 必须 被 复制 ， 每 个 元 素 被 选 出 组 成 一 个 列表 的 可 能 性 是 均等 的 。 如 果 样 本 的 
大 小 比 总 体 的 大 小 k 还 要 大 ， 那 么 就 会 报 出 ValueError 异 常 。 


4. 基于 统计 分 布 的 函数 


有 很 多 可 以 用 于 各 种 场景 的 统计 分 布 。 为 了 支持 这 些 场景 , 随机 数 模 块 包括 了 各 种 统计 分 布 
的 函数 。 下 面 是 基于 统计 分 布 的 随机 数 生成 器 。 


口 随机 数 生 成 能 函数 (random.uniform(a，Db) ): 这 个 函数 返回 a 至 b 区 间 的 一 个 随机 浮 

点 数 N。 选 择 a 至 bp 区 间 的 每 一 个 随机 数 的 概率 都 是 一 样 的 。 

口 random.triangular (low, high, modqe) 生 成 器 : 这 个 函数 返回 服从 1ow <= N <= high 
的 三 角 分 布 的 一 个 随机 浮 点 数 N。 low 与 high 是 数值 的 边界 , mode 保 持 在 边界 内 。 默 认 情 
况 下 ， 边 界 最 小 值 是 0， 最 大 值 是 1，moae 是 最 大 值 与 最 小 值 的 中 点 。 

口 randqom.betavariate(alpha，beta) 生 成 锅 : 这 个 琢 数 返回 一 个 0 至 1 区 间 的 随机 数 ， 

该 随机 数 满足 参数 alpha(a)>0 和 beta(p)>0 条 件 下 的 贝塔 分 布 。 

D random.expovariate (lambd) 生 成 器 : 这 个 函数 返回 一 个 基于 指数 分 布 的 随机 数 。 参 
数 1amba (入 ) 的 值 必须 是 非 零 。 如 果 1ambg 的 值 是 正 的 , 它 返 回 0 至 正 无 穷 大 区 间 的 值 ; 如 
果 1lamb6 的 值 是 负 的 ， 那 么 返回 负 无 穷 大 到 0 区 间 的 值 。 这 个 参数 特意 命名 为 lambdqd， 
为 在 Python 中 1ambda 是 一 个 保留 字 。 

口 random.gammavariate(alpha，beta) 生 成 器 : 这 个 国 数 基于 伽 马 分 布 生 成 随机 数 ， 
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该 随机 数 满足 参数 条 件 alpha(a)>0 和 beta(8)>0。 


Dra 


Dra 





Dra 


里 mu (ph) 是 均值 ，sigma (o) 是 标准 差 。 


ndqom.normalvariate(mu，sigma) 生 成 器 : 该 生成 器 基于 正 态 分 布 生成 随机 数 。 这 

















ndom.gauss (mu，sigma) 生 成 需 : 该 函数 利用 高 斯 分 布 生成 随机 数 。 这 里 mu (h) 是 





均值 ，sigma (o) 是 标准 差 。 与 正 态 分 布 相 比 ， 该 函数 更 快 。 


ndom.lognormvariate (mu，sigma) 生 成 侨 : 这 里 用 对 数 正 态 分 布 生成 随机 数 。 以 




















自然 数 为 底 的 该 分 布 与 正 态 分 布 等 价 。 同 样 ， 这 里 mu (h ) 是 均值 ，sigma (c) 是 标准 差 。 


并 


Dra 


Dra 





且 mu 可 以 是 任意 值 ， 而 sigma 必 须 大 于 0。 



































ndom.vonmisesvariate(mu，kappa) 生 成 器 : 该 函数 用 冯 : 米 塞 斯 分 布 返回 随机 角 























度 值 。 这 里 mu 是 角度 的 均值 , 范围 在 0 至 2*pi 之 间 。kappa (k) 是 浓度 参数 ( 大 于 等 于 0 )。 





ndqom.patretovariate(alpha) 生 成 器 : 该 函数 服从 帕 累 托 分 布 生成 随机 变量 。 这 里 


alpha 是 形状 参数 。 
口 *xandom.weipullvariate(alpha，beta) 生 成 需 : 该 函数 用 Weibull 分 布 生 成 随机 数 。 





alpha 是 标量 参数 ，beta 是 形状 参数 。 
5. 不 确定 的 随机 数 生 成 器 
除了 以 上 讨论 的 随机 数 生 成 器 函数 , 还 有 一 个 可 选 的 随机 数 生 成 器 。 该 生成 器 被 用 于 随机 数 


([seed]) 


须 是 不 确定 的 情况 ， 例 如 密码 学 和 安全 领域 。 该 生成 需 是 andom. SystemRandom 


类 。 该 类 用 操作 系统 提供 的 os .urandom() 函数 生成 随机 数 。 











下 面 的 程序 展示 了 上 述 提 到 的 函数 的 运用 。 函 数 调用 的 输出 也 展示 出 来 了 。 简 便 起 见 ,， 我 们 

















只 用 到 以 下 函数 : 
口 random.random 
口 random.uniform 
口 random.randrange 
口 random.choice 
口 random. shuffle 
DQ print random.sample 
D random.choice 
程序 如 下 : 








import random 


print 
Drit 
print 
print 
print 
items 


random.random() 

random.uniform(1,9) 

random.randrange (20) 

random.randrange (0, 99, 3) 
random.choice('ABCDEFGHIJKLMNOPQORSTUVWXYZ') # 输出 'P' 
En Lb i B53 Sy 6 Tr. BB Qn B00 
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random.shuffle (items) 

print items 

Drint warndom sample([lly 27 374» By 6€7 7 Bi- 9, 10]» 5) 

weighted choices = [('Three', 3), ('Two', 2), ('One', 1), ('Four', 4)] 
population = [val for val, cnt in weighted choices for i in 

range (cnt)] 

print random.choice (population) 


我 们 来 讨论 每 个 函数 调用 的 输出 。 第 一 个 函数 random 返 回 任意 大 于 0 小 于 1 的 浮 点 随机 值 。 
uniform 函 数 返回 给 定 范围 内 的 均匀 分 布 随 机 值 。 randrange 函 数 返回 一 个 给 定 范围 内 的 随机 整 
型 值 。 如 果 第 一 个 参数 被 忽略 的 话 ， 那 么 该 参数 会 被 默认 为 0。 因 此 对 于 randrange (20) ， 其 范 
围 是 0~19。 




















现在 来 讨论 与 序列 相关 的 函数 输出 。choice 函 数 返 回 一 个 列表 的 随机 选择 值 。 在 上 面 的 例 
子 中 有 26 种 选择 值 ， 而 返回 的 值 是 p。shuffle 函 数 的 输出 很 明显 ， 而 且 正如 预期 ， 其 中 的 一 些 
值 被 混合 重 排 。sample 函 数 选择 给 定 大 小 的 一 个 随机 样本 。 在 上 面 的 例子 中 ，sample 的 大 小 是 
5, 因此 随机 样本 有 5 个 元 素 。 上 面 程序 的 最 后 三 行 执行 的 是 用 一 个 给 定 的 概率 选择 一 个 随机 值 的 
函数 。 这 也 是 为 什么 choice 函 数 被 称 作 权 重 选择 ， 因 为 每 个 选择 都 被 赋予 了 一 个 权重 。 





























3.7.2 ”基于 统计 分 布 的 随机 数 生成 器 的 设计 和 实现 


本 节 将 讨论 泊 松 分 布 的 算法 设计 和 Python 实现 。 这 将 有 两 方面 的 好 处 : 一 是 你 可 以 学 习 一 个 
新 的 基于 统计 分 布 的 随机 数 生成 需 的 设计 和 实现 , 二 是 在 随机 模块 中 并 不 包含 这 个 函数 , 所 以 用 
户 也 可 以 用 到 这 个 新 分 布 。 对 于 一 些 特定 的 应 用 , 一 些 变量 会 采用 泊 松 随机 值 。 例如 ， 考虑 在 操 
作 系 统 进程 调度 中 的 调度 算法 。 为 了 模拟 进程 调度 ， 我 们 假设 进程 的 到 达 遵 循 泊 松 分 布 。 


有 一 些 场 景 是 可 以 应 用 泊 松 分 布 的 ， 举 例如 下 。 


口 互联 网 的 流量 模式 服从 泊 松 分 布 。 

口 呼叫 中 心 接收 到 的 呼叫 数量 服从 泊 松 分 布 。 

口 (有 两 个 队 参 与 的 ) 曲棍球 或 足球 比赛 项 目 中 的 进 球 数 服从 泊 松 分 布 。 

口 操作 系统 中 的 进程 到 达 时 间 。 

口 对 于 一 个 年 龄 段 的 群体 ， 其 每 年 的 死亡 率 服从 泊 松 模式 。 

D 在 给 定时 间 段 内 股票 价格 的 下 降 次 数 。 

口 对 于 给 定 片段 的 DNA 做 辐射 ， 突 变 的 数量 服从 泊 松 分 布 。 

泊 松 分 布 的 算法 实现 在 高 德 纳 的 《计算 机 程序 设计 艺术 ( 卷 2 )》" 中 给 出 了 ， 其 代码 如 下 : 
algorithm poisson_ random_nurmber (Knuth): 


initializations: 
L = e- 和 A 





















































Qz 此 书 中 文 版 已 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 
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,a0 
他 二: 寺 
do: 
k K + 工 
u uniform random number (0,1) 


中 1 


p Io bl 
while p>L 
return k -1 


下 面 的 代码 是 泊 松 分 布 的 Python 实 现 : 


import math 

import random 

def nextPoisson(lambdaValue): 
elambda = math.exp(-1l*lambdaValue) 
Broduet: 去- 二 

count = 0 


while (product >= elambda): 
product *= random.random() 
result = count 
count += 1 
return result 
for x in range(1, 9): 
print nextPoisson(8) 


上 面 程序 的 输出 是 : 





户 


oh ph AG 0 PT 


关于 重 现 随机 数 的 特别 提示 

如 果 一 个 应 用 要 求 用 任意 方法 重 现 随机 数 ， 在 这 种 情况 下 ， 我 们 可 以 用 这 
些 函 数 重 现 生 成 的 随机 数 。 为 了 重 现 序 列 ， 需 要 用 到 同样 的 函数 和 同样 的 种 子 
值 。 同 样 ， 我 们 也 可 以 重 现 列表 ， 这 也 是 为 什么 我 们 称 大 多 数 随 机 数 生成 函数 
是 确定 的 。 


3.7.3 一 个 用 简单 逻辑 生成 5 位 随机 数 的 程序 


以 下 程序 展示 了 用 时 间 和 日 期 对 象 生 成 随机 数 的 方法 。 它 用 了 特别 简单 的 逻辑 来 生成 5 位 随 
机 数 。 在 这 个 程序 中 ， 用 当前 的 系统 时 间 来 生产 随机 数 。 系 统 时 间 的 4 个 组 件 一 一 小 时 、 分 钟 、 
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秒 和 毫秒 一 一 通常 是 唯一 的 组 合 。 这 个 值 被 转换 成 一 个 字符 串 ， 然 后 转换 成 一 个 5 位 的 值 。 在 用 
户 定义 的 函数 的 第 一 行 , 引入 了 一 个 毫秒 级 的 延迟 ,这 样 在 很 短 的 时 间 内 ,每 次 调用 时 ， 时 间 值 
是 不 同 的 。 如 果 没 有 这 一 行 ， 用 户 将 得 到 一 些 重复 的 值 。 






































import datetime 
import time 


# 用 户 定义 了 济 数 返回 5 位 的 随机 数 

def next_5digit_int(): 
# 这 样 可 以 将 随机 数 设置 为 微 秒 级 
time.sleep(0.123) 
current_time = datetime.datetime.now() .time!() 
random no = int (current time.strftime('%S%f')) 
# 去 掉 后 三 位 尾数 


return random no/1000 





# 随机 数 生 成 演示 

for x in range(0, 10): 
i = next_5digit_int() 
ok onl oleae 


3.8 ”大 规模 数据 集 的 简要 介绍 


科学 应 用 程序 的 数据 集 范围 很 广泛 , 从 几 MB 到 几 GB 都 有 。 某 些 特殊 应 用 程序 的 数据 集 非常 
大 ， 可 能 有 几 PB ( 拍 字 节 ) ”。 以 我 们 熟悉 的 MB 与 GB 来 对 比 一 下 PB 的 规模 。 假 如 我 们 把 1 PB 的 
数据 刻录 成 CD ， 然 后 把 这 些 CD 堆 起 来 ， 那 么 县 起 来 的 光盘 高 度 大 约 是 1.75 千 米 。 由 于 近 些 年 网 
络 和 分 布 式 计算 技术 的 进步 ， 有 许多 应 用 需要 处 理 PB 的 数据 量 。 为 了 有 效 地 处 理 大 规模 数据 集 ， 
在 软件 和 硬件 层面 都 出 现 了 一 些 解 决 方法 。 


有 一 些 处 理 各 种 规模 数据 集 的 有 效 架 构 。 这 些 架构 在 处 理 小 规模 、 中 等 规模 和 大 规模 数据 时 
同样 高 效 ， 仅 取决 于 提供 的 基础 架构 。MapReduce 就 是 这 样 一 种 架构 ，Hadoop 是 MapReduce 架 构 
的 一 个 开源 实现 。 


在 数据 库 层面 ,用 户 有 多 种 方法 来 存储 和 管理 任意 规模 的 数据 。 这 些 数据 库 可 能 是 最 简单 的 ， 
如 纯 文 本 文件 (文本 文件 或 者 二 进 制 文件 )。 然 后 还 有 一 些 基于 模式 的 数据 库 ， 如 关系 型 数据 库 ， 
这 些 数 据 库 能 高 效 地 管理 几 个 GB 的 数据 库 。 文 件数 据 库 和 基于 模式 的 数据 库 都 可 以 管理 MB 到 
GB 规模 的 数据 。 为 了 处 理 超过 这 个 限制 的 数据 ， 现 在 的 趋势 是 用 非 基 于 模式 的 数据 库 和 高 级 分 
布 式 文件 系统 ， 例 如 谷歌 的 BigTable 、Apache HBase 和 HDFS。HBase 是 一 个 基于 列 的 数据 库 ， 可 
以 支持 超大 规模 数据 库 。HDFS 是 一 个 分 布 式 文件 系统 ， 它 能 存储 几 个 PB 的 文件 ， 不 像 普通 文件 
系统 (如 WINDOWS NT ) 的 最 大 文件 大 小 16 GB。 
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Q@1PB=1024 TB。 一 一 译 者 注 
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大 多 数 编程 语言 都 支持 这 些 框 架 和 数据 库 ， 包括 Python、Scala、Java、Ruby 等 。 除 了 软件 级 
的 ， 还 有 一 些 复 杂 的 硬件 组 合 ， 例 如 不 同 硬件 ( 如 处 理 器 、LO 设 备 和 网 络 设备 ) 组 成 的 虚拟 化 
内 容 。 还 有 一 些 专 门 针 对 之 前 介绍 的 数据 库 软 件 的 性 能 增强 硬件 。 


分 布 式 计算 领域 最 新 的 进展 称 为 云 计算, 它 包 括 一 些 新 的 科学 计算 和 商业 应 用 。 云 计算 和 上 
面 讨论 的 一 些 概念 的 运用 , 为 人 们 提供 了 有 史 以 来 最 大 的 数据 处 理 和 存储 能 力 , 让 一 切 成 为 可 能 。 
在 云 计算 环境 中 正 不 断 地 产生 新 应 用 ， 这 些 新 的 应 用 的 数量 与 日 俱 增 。 

以 上 讨论 的 技术 也 用 于 文本 搜索 、 模 式 查 找 和 匹配 、 图 像 处 理 、 数 据 挖掘 和 大 数据 集 的 计算 。 
在 各 种 商业 和 科学 应 用 中 ， 这 些 需求 非常 普遍 。 


在 第 8 章 中 ,我们 将 详细 讨论 这 些 技术 ， 并 重点 关注 它们 在 大 规模 科学 项 目 中 的 应 用 。 









































3.9 小 结 


本 章 首先 介绍 了 数据 、 信 息 和 知识 的 基本 概念 ,然后 介绍 了 各 种 用 于 存储 数据 的 软件 , 之 后 
讨论 了 数据 集 的 各 种 操作 , 列举 了 存储 科学 数据 的 标准 格式 。 接 着 还 讨论 了 各 主题 领域 的 各 种 预 
定义 的 、 已 使 用 的 标准 数据 集 。 但 是 ， 目 前 仍然 有 一 些 特定 主题 的 数据 集 是 缺失 的 。 


在 介绍 基本 概念 之 后 , 本 章 还 介绍 了 各 种 为 特定 实验 模拟 数据 的 技术 。 还 介绍 了 用 于 随机 数 
生成 的 各 种 标准 函数 。 对 于 模拟 数据 的 生成 , 我 们 还 介绍 了 用 泊 松 分 布 生成 随机 数 的 一 个 算法 和 
一 个 程序 。 

下 一 章 将 详细 介绍 Python 科学 计算 的 API 和 工具 。 这 些 API 提 供 数值 计算 (NumPy 和 SciPy )、 


符号 计算 ( SymPy )、 数 据 可 视 化 和 画图 (matplotlib 和 pandas ) 以 及 交互 式 编程 (IPython )。 此 外 ， 
还 会 简单 讨论 这 些 API 的 特征 和 功能 。 
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Python 科学 计算 AP 











本 章 将 对 Python 各 种 科学 计算 API 和 工具 箱 的 特性 与 能 力 进行 全 面 的 介绍 。 除 了 介绍 基础 知 
识 ， 我们 还 会 针对 每 个 API 演 示 一 些 示 例 程序 。 由 于 符号 计算 是 计算 机 数学 中 一 个 比较 特殊 的 领 
域 ， 因 此 我 们 在 SymPy 那 一 节 中 安排 了 一 个 小 节 单独 介绍 计算 机 代数 系统 的 基础 知识 。 | 


本 章 将 介绍 的 主题 如 下 : 


口 用 NumPy 和 SciPy 做 科学 数值 计算 
口 用 SymPy 做 符号 计算 

口 计算 机 代数 系统 

口 SymPy 及 其 模块 介绍 

口 SymPy 示 例 程 序 

口 数据 分 析 、 可 视 化 与 交互 式 计算 














4.1 Python 数值 科学 计算 


科学 计算 主要 需要 的 是 完成 代数 方程 、 和 矩阵 、 微 分 、 积 分 、 微 分 方程 、 统 计 、 方 程 求解 等 方 
面 计算 的 能 力 。Python 语 言 本 身 并 不 具有 这 些 功能 。 但 是 ，Numpy 和 SciPy 的 发 展 让 我 们 能 够 完 
成 这 些 计算 ， 并 提供 了 更 多 的 高 级 功能 。Numpy 和 Scipy 都 是 非常 强大 的 Python 程 序 包 ， 让 用 户 
可 以 高 效 地 完成 各 种 科学 应 用 需要 的 计算 任务 。 

















4.1.1 NumPy 程序 包 


NumPy 是 Python 科学 计算 的 基础 程序 包 。 它 提供 了 多 维 数组 和 基本 数学 运算 的 功能 ， 比 如 线 
性 代数 。Python 提 供 了 一 些 数据 结构 来 存储 用 户 数据 ， 最 流行 的 数据 结构 是 列表 和 字典 。 列 表 可 
以 存储 任意 Python 对 象 作 为 元 素 。 这 些 元 素 可 以 通过 for 循 环 或 迭代 带 进 行 处 理 。 字 典 对 象 以 键 
值 对 的 形式 存储 数据 。 
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1. N 维 数组 数据 结构 


N 维 数组 (NumPy 的 ndaarray 对 象 ) 与 列表 类 似 ,但 是 更 加 灵活 高 效 。N 维 数组 是 一 个 数组 
对 象 ， 可 以 表示 固定 数量 的 多 维 数 组 。 这 个 数组 应 该 是 齐 次 的 (homogeneous )。 它 通过 dtype 类 
型 的 对 象 定义 数组 中 元 素 的 数据 类 型 。 这 个 对 象 可 以 定义 数据 的 类 型 ( 整 型 、 浮 点 型 或 Python 对 
象 类 型 ) 数据 的 字 节 数 以 及 字 节 存储 顺序 ( byte ordering, 包括 big-endian 高 位 至 低位 与 little-endian 
低位 至 高 位 )。 另 外， 如 果 数 据 类 型 是 recorgd 或 sub-array， 类 型 还 会 包含 具体 的 细节 信息 。 真 
实 的 数组 可 以 通过 numpy .Aarrdy、 NUmMpPY .ZeEroOoS、 nNUmpYy. empty 三 种 方法 创建 。 


N 维 数组 另 一 个 重要 特性 是 数组 大 小 是 可 以 动态 调整 的 。 而 且 如 果 用 户 需要 从 数组 中 移 除 一 
些 元 素 ， 可 以 通过 NumPy 的 模块 实现 戴 面 具 数 组 ( masked array )。 在 许多 科学 计算 场景 中 ， 人 
们 都 需要 删除 /清理 异常 数据 。numpy.ma 模 块 能 够 实现 为 数组 戴 面 具 的 功能 ， 轻 松 地 移 除 数组 中 
的 元 素 。 戴 面具 数组 就 是 正常 数组 加 了 一 个 面具 (mask )。 面 具 其 实 是 另 一 个 由 True 和 False 
构成 的 数组 。 对 于 某 个 位 置 的 元 素 ， 如 果 面 具 数 组 中 的 值 是 True， 那 么 原 数组 对 应 位 置 的 值 就 
是 有 效 的 ; 如 果 面 具 数 组 中 的 值 是 False， 那 么 原 数组 对 应 位 置 的 值 就 是 无 效 的 或 隐藏 的 。 对 
于 原 数 组 中 那些 标记 为 False 的 数值 而 言 ,，N 维 数组 上 进行 任何 计算 时 , 都 不 会 考虑 这 些 被 隐藏 
的 元 素 。 


2. 文件 处 理 


科学 计算 的 另 一 个 重要 方面 是 用 文件 存储 数据 .NumPy 可 以 对 文本 文件 和 二 进 制 文件 进行 读 
写 操作 。 大 多 数 情况 下 , 文本 文件 都 是 读 取 、 写 人 和 进行 数据 交换 的 良好 格式 ， 因 为 它们 天 生 具 
有 移植 性 ,而 且 大 多 数 系统 平台 都 自 带 文本 文件 的 处 理 功能 。 但 是 , 对 于 一 些 应 用 程序 而 言 ， 有 
时 用 二 进 制 文件 更 好 ,或 者 在 一 些 场景 中 ,这 些 应 用 程序 需要 的 数据 只 能 存储 成 二 进 制 文件 格式 。 
有 时 ， 数 据 的 大 小 和 类 型 决定 了 存储 形式 ， 例 如 图 像 和 声音 文件 只 能 存储 成 二 进 制 文件 。 


相 比 文本 文件 ， 二进制 文件 较 难 管理 ,因为 它们 的 格式 特殊 。 而 且 二 进 制 文件 的 大 小 都 相对 
非常 小 ， 对 它们 的 读 / 写 速度 比 文本 文件 更 快 。 快 速 的 读 / 写 最 适用 于 那些 需要 处 理 大 型 数据 集 的 
应 用 程序 。 用 NumPy 操 作 二 进 制 文件 的 唯一 缺点 是 ， 它 们 只 能 通过 NumPy 接 入 。 


Python 的 文本 文件 操作 函数 包括 open、readqlines、writelines。 但 是 ,用 这 些 函 数 操作 
科学 数据 的 性 能 并 不 佳 。 这 些 Python 函数 在 从 文件 读 写 数据 时 非常 慢 。NumPy 有 一 组 高 性 能 函数 ， 
可 以 在 计算 之 前 将 数据 载 入 N 维 数组 。 在 NumPy 中 ， 文 本 文件 可 以 通过 numpy .1oadtxt 和 
numpy .savetxt 国 数 接 人 。loaatxt 困 数 可 以 将 文本 文件 的 数据 载 人 N 维 数组 。NumPy 还 有 一 个 
独立 的 函数 用 于 操作 二 进 制 数据 。 这 些 函 数 分 别 是 读 取 用 的 numpy.1oad 和 写 入 用 的 


numpy .Saveo 





















































































































































3. 简单 的 NumPy 程 序 
NumPy 数 组 可 以 从 使 用 数组 的 列表 或 元 组 创建 。 这 个 方法 可 以 将 序列 的 序列 转换 成 二 维 数组 : 
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import numpy as np 
x np.array (ld,;432,21].,; “int) 
print x # 输 出 [ 4 432 21] 
N20 a npnarray( (T00200.30073. (TL1y222, 333). (12374567789) )  ) 
Brint: x2d 
输出 结果 如 下 : 

| 


[100 200 300] 
LLL 222 333] 


[ 
[ 
[ 
[123 456 789]] 





基本 的 矩阵 算术 运算 都 可 以 在 二 维 数组 上 简单 地 完成 , 如 下 面 的 程序 所 示 。 这 


些 运算 基本 都 





是 应 用 在 元 素 上 。 因 此 ， 操 作 符 两 侧 的 数组 必须 是 同样 维度 的 。 如 果 维 度 不 一 致 ， 
运行 时 错误 。 下 面 的 程序 示例 演示 一 维 数组 的 算术 运算 : 











import numpy as np 


x = np.array ([4,5,6]) 
en.array(tbly23]) 

print x +y # 输出 [5 7 9] 
print x * yy # 输出 [ 4 10 18] 
print x - Y # 输出 [3 3 3] 
print x /y # 输出 [4 2 2] 
print x $y # 输出 [0 1 0] 


算 就 会 引起 











有 一 个 单独 的 matrix 子 类 可 以 进行 矩阵 运算 。 让 我 们 用 下 面 的 程序 示例 演 


























示 和 矩阵 运算 ， 对 











比 数组 乘法 与 矩阵 乘法 的 差异 。NumPy 的 和 矩阵 是 二 维 的 ， 而 NumPy 数 组 可 以 是 任意 维度 的 : 


import numpy as np 


x Nvarrtay Ct (L253, (1.25.3) (L253))) 
2 ND Eo CL (Ly) (Ls.3)d) 
Drint "EirSst 2D Array XXL” 
print xl1 
print "Second 2-D Array: x2" 
print x2 
print "Array Multiplication" 
Drint: cl*2 
mL "=s mp matrict tC(L273) (L203) (LT, 2.37)) 3 
ER 
print "Matrix Multiplication" 
print mxl*mx2 
输出 结果 如 下 : 
First 2-D Array: xl 
[ELS2: .3 
[1 3.] 
[3 


Second 2-D Array: x2 
[1 2 3] 
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Matrix Multiplication 
|| 
6 12 18] 
6 12;.:L8:]d] 


下 面 的 简单 程序 演示 了 NumPy 的 简单 统计 函数 : 








import numpy as np 

x = np.random.rangn (10) # 创建 一 个 有 10 个 随机 元 素 的 数组 
print x 

mean = x.mean() 

print mean 

sta es RBEG() 

print std 

VA( 

print var 


第 一 个 样本 的 输出 结果 如 下 : 


[0.08291261 0.89369115 0.641396 -0.97868652 0.46692439 
-0.13954144 

=0529892453 “O96LY77LOY. 203509975071 :035.832954] 
0.208762357623 

0.559388806817 

05312915837L92 


第 二 个 样本 的 输出 结果 如 下 : 


bb L28239629- :050953693 =0.88L12438. S273/ L502 T31752476 
1.50047537 
0.19905071 -0.48867481 0.26767073 2.660184 |] 
0.355946458357 
1.35007701045 
1.82270793415 


上 面 的 程序 都 是 一 些 简单 的 NumPy 示 例 。 我 们 将 在 第 5 章 中 详细 地 介绍 NumPy 的 功能 。 下 一 
节 介 绍 Python 的 SciPy 程 序 包 。 





4.1.2 ”SciPy 程序 包 


SciPy 是 对 Python 的 NumPy 的 功能 扩展 ， 它 提供 了 许多 高 级 数学 函数 ， 例 如 微分 、 积 分 、 微 
分 方程 、 优 化 方法 、 数 值 分 析 、 高 级 统计 函数 、 方 程式 求解 等 。SciPy 是 在 NumPy 数 组 框架 的 基 
础 上 实现 的 。 它 对 NumPy 数 组 和 基本 的 数组 运算 进行 扩展 , 满足 科学 家 和 工程 师 解 决 问题 时 需要 
用 到 的 大 部 分 数学 计算 功能 。 
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这 一 章 将 介绍 一 些 SciPy 基 本 功能 的 程序 示例 , NumPy 和 SciPy 的 功能 将 在 第 5 章 中 详细 介绍 。 
下 面 几 个 小 节 将 介绍 SciPy 的 一 些 重要 程序 包 / 模 块 的 基础 知识 , 包括 聚 类 分 析 、 文 件 处 理 、 积 分 、 
数值 分 析 、 优 化 方法 、 信 号 与 图 像 处 理 、 空 间 分 析 和 统计 学 。 


1. 优化 函数 程序 包 


SciPy 的 优化 程序 包 提 供 了 解决 单 变量 和 多 变量 的 目标 函数 最 小 值 问题 的 功能 。 它 可 以 通过 
大 量 的 算法 和 方法 解决 最 小 化 问题 。 最 小 化 问题 在 科学 与 商业 领域 中 十 分 普遍 。 一 般 情况 下 , 我 
们 会 使 用 线性 回归 ， 搜 索 函 数 的 最 大 值 与 最 小 值 ， 求 方程 的 根 ， 通 过 线性 规划 方法 求解 ， 等 等 。 
优化 函数 程序 包 支 持 所 有 这 些 功 能 。 


2. 数值 分 析 程 序 包 


数值 分 析 程序 包 实 现 了 大 量 的 数值 分 析 算 法 和 方法 , 都 作为 内 置 函 数 。 它 支持 单 变 量 和 多 变 
量 的 插值 ， 以 及 一 维和 多 维 的 样 条 插值 。 当 数据 受 单 变 量 影响 时 ， 用 单 变量 插值 ， 当 数据 收 到 多 
个 变量 的 影响 时 ， 用 多 变量 搬 值 。 除 了 这 些 功能 之 外 ， 数 值 分 析 程 序 包 还 提供 了 拉 格 朗 日 
(Lagrange ) 和 泰勒 ( Taylor ) 多 项 式 插 值 方法 。 


3. 积分 与 微分 方程 

积分 是 科学 计算 中 的 重要 数学 工具 。SciPy 的 积分 程序 包 提供 了 数值 积分 的 功能 。SciPy 提 供 
了 大 量 的 函数 解决 积分 方程 与 数据 的 计算 问题 。 它 还 提供 了 常 微分 方程 的 积分 工具 。 它 还 借助 大 
量 数值 分 析 得 数学 方法 完成 数值 积分 的 计算 。 

4. 统计 学 模块 

SciPy 的 统计 学 模块 提供 了 大 量 的 概率 分 布 函数 和 统计 函数 。 它 支持 的 概率 分 布 函 数 包括 连 
续 变 量 分 布 函 数 、 多 变量 分 布 函 数 以 及 离散 变量 分 布 函 数 。 统计 函数 包括 简单 的 均值 到 复杂 的 统 
计 学 概念 ， 包 括 偏 度 ( skewness )、 峰 度 (kurtosis )、 卡 方 检验 (chi-square test ) 等 。 

5. 聚 类 程序 包 与 空间 算法 


聚 类 分 析 是 一 项 流行 的 数据 挖掘 技术 ,在 科学 与 商业 领域 有 广泛 的 应 用 。 在 科学 领域 中 , 生 
物 学 、 粒 子 物 理学 、 天 文学 、 生命 科 学 与 生物 信息 学 都 是 一 些 广泛 使 用 聚 类 分 析 解 决 问题 的 领域 。 
聚 类 分 析 在 计算 机 科学 的 诸多 领域 也 应 用 广泛 ， 例 如 计算 机 欺诈 检测 、 安 全 分 析 与 图 像 处 理 等 。 
聚 类 程序 包 提 供 了 K-means 聚 类 ,向量 量化 ( vector quantization 九 .层次 聚 类 ( hierarchical clustering ) 
与 凝聚 式 聚 类 ( agglomerative clustering ) 函数 等 。 


spatial 类 利用 三 角子 数 、 沃 罗 诺 伊 图 ( Voronoi Diagram ) 以 及 多 点 的 凸 包 ( Convex Hull ) 
























































































































































@ 将 一 个 范围 内 的 值 用 一 个 值 近似 蔡 代 。 一 一 译 者 注 
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分 析 空 间 中 两 点 之 间 的 距离 。 它 还 用 KD 树 算法 实现 了 RNN 函 数 。 
6. 图 像 处 理 


SciPy 提 供 了 大 量 的 图 像 处 理 函 数 ， 包 括 基 本 的 图 像 文件 读 / 写 、 图 像 显 示 ， 以 及 简单 的 处 理 
函数 ,例如 裁剪 、 翻 转 和 旋转 。 它 还 文 持 图 像 过 滤 函 数 , 包括 图 像 数学 变换 、 平 滑 、 降 噪 、 锐 化 。 
男 外 ， 它 还 支持 许多 其 他 操作 ， 如 通过 不 同 对 象 的 像素 进行 图 像 分 割 、 分 类 ， 以 及 通过 边缘 检测 
进行 特征 提取 。 



































4.1.3 简单 的 SciPy 程序 


以 下 几 个 小 将 介绍 一 些 用 SciPy 模 块 和 程序 包 实现 的 程序 示例 。 首 先 将 介绍 一 个 用 SciPy 进 
行 标准 统计 计算 的 示例 , 然后 是 一 个 用 优化 方法 寻找 函数 最 小 值 的 程序 , 最 后 介绍 一 个 图 像 处 理 
程序 。 


1. 用 SciPy 做 统计 


SciPy 的 统计 学 模块 有 完成 简单 统计 学 运算 的 函数 和 各 种 各 样 的 概率 分 布 函数 。 下 面 的 程序 
用 SciPy 的 stats .describe 函 数 演示 了 简单 的 统计 运算 。 这 个 函数 可 以 处 理 数组 ， 返 回 数组 元 
素 的 数量 、 最 小 值 、 最 大 值 、 均 值 、 方 差 、 偏 度 和 峰 度 : 


import scipy as sp 

import scipy.stats as st 

s = sp.randn(10) 

n, min max, mean, var, skew, kurt = st.describel(s) 

print ("Number of elements: {0:d}".format (n)) 

print ("Minimum: {0:3.5f} Maximum: {1:2.5f}".format (min max[0], 
min max[1])) 

print ("Mean: {0:3.5f}".format (mean)) 

print ("Variance: {0:3.5f}".format (var)) 

print ("Skewness : {0:3.5f}".format (skew)) 

print (MRKUTEOSLIST (03 St} format (kust),) 


输出 结果 为 : 


Number of elements: 10 

Minimum: -2.00080 Maximum: 0.91390 
Mean: -0.55638 

Variance: 0.93120 

Skewness : 0.16958 

Kurtosis: -1.15542 


2. SciPy 优 化 函数 


在 数学 优化 理论 中 ,一 种 被 称 为 Rosenbrock 的 非 凸 函数 常用 于 检测 优化 算法 的 性 能 。 以 下 程 
序 演示 了 该 也 数 的 最 小 值 问题 。N 个 变量 的 Rosenbrock 也 数 方程 如 下 所 示 , 它 在 x 二 1 时 最 小 值 为 0: 
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f0)= T1000 07 + ny 


上 面 方 程 的 程序 如 下 所 示 : 





import numpy as np 
from scipy.optimize import minimize 


# 定义 Rosenbrock 函 数 
def rosenbrock (x): 
return sum(100.0*(x[1:]-x[:-1]**2.0)**2.0 + (1-X[:-1])**2.0) 


WO eS TD rarravli[liliy 0.7 O08, 2 Tl]) 
res = minimize(rosenbrock, x0, method = 'nelder-mead', options = 
{'xtol': le-8, 'disp': True}) 


Brint (res,x) 


输出 结果 为 : 





Optimization terminated successfully. 
Current function value: 0.000000 
Iterations: 516 
Function evaluations: 827 

ls se sss ss, ss 


最 后 一 行 是 print (res .x) 的 输出 结果 ， 可 以 看 出 里 面 的 元 素 都 是 1。 





3. SciPy 图 像 处 理 


下 面 两 个 程序 演示 SciPy 的 图 像 处 理 功能 。 第 一 个 程序 显示 标准 测试 图 像 ， 这 张 图 像 名 叫 
Lena, 广泛 应 用 于 图 像 处 理 领域 。 第 二 个 程序 演示 图 像 几 何 变换 , 它 会 完成 图 像 裁剪 和 45 度 旋转 。 


下 面 的 程序 是 用 matplotlib 的 API 显 示 Lena 图 像 。imshovw 方 法 会 把 N 维 数组 泻 染 为 图 像 ， show 
显示 图 像 : 








from scipy import misc 

1 = misc.lena() 
misc.imsave('lena.png', 1) 
import matplotlib.pyplot as plt 
plt .gray () 

plt.imshow(1) 

plt.show!() 


这 个 程序 的 输出 结果 如 下 图 所 示 。 
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下 面 的 程序 完成 图 像 的 几何 变换 。 变 换 后 的 图 像 与 原始 图 像 共同 放 在 一 个 2x2 的 数组 中 : 


import scipy 

from scipy import ndimage 
import matplotlib.pyplot as plt 
import numpy as np 


lena = scipy.misc.lenal() 

lx, ly = lena.shape 

crop_lena = lena[llx/4:-1x/4, ly/4:-ly/4] 
crop_eyes_lena = lena[llx/2:-1x/2.2, ly/2.1:-ly/3.2] 
rotate_ lena = ndimage.rotate(lena, 45) 





# 四 幅 图 ， 返 回 二 维 数 组 


























二 

axarr[0, 0] .imshow(lena, cmap=plt.cm.gray) 
axarr[0, 0] .axis('off' 

axarr[0, 0] .set_title('Original Lena Image') 
axarr[0, 1].imshow(crop_lena, cmap=plt.cm.gray) 
axarrlOs 1] axis( "off" 

axarr[0, 1].set_title('Cropped Lena') 

axarr[1l, 0] .imshow(crop_eyes_lena, cmap=plt.cm.gray) 
axarr[1, 0] .axis('off' 

axarr[1, 0].set_title('Lena Cropped FEyes') 
axarr[l1l, 1].imshow(rotate_lena, cmap=plt.cm.gray) 
axarr[1, 1] .axis('off' 

axarr[l1l, 1].set_ title('45 Degree Rotated Lena') 
plt.show!() 


输出 结果 如 下 。 
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SciPy 和 NumPy 之 所 以 成 为 Python 科学 计算 的 核心 ， 是 因为 它们 为 数值 计算 提供 了 坚实 的 基 
础 功能 。 我 们 将 在 第 5 章 介绍 两 个 软件 包 的 细节 。 下 一 节 内 容 介绍 用 SymPy 做 符号 计算 。 





4.2 ”SympPy 符号 计算 


计算 机 直接 对 数学 符号 进行 正确 的 计算 被 称 为 符号 计算 。 通常 , 符号 计算 也 被 称 为 计算 机 代 
数 ， 而 对 应 的 计算 机 系统 称 为 计算 机 代数 系统 。 下 面 将 对 SymPy 程 序 库 作 简单 介绍 。 我 们 将 在 第 
6 章 中 深入 介绍 用 Python 做 符号 计算 的 内 容 。 








4.2.1 计算 机 代数 系统 


下 面 介 绍 计算 机 代数 系统 (Computer Algebra System，CAS ) 的 概念 。CAS 是 一 个 软件 或 者 
工具 箱 ， 用 计算 机 代替 手工 运算 数学 表达 式 "。 早 期 用 计算 机 解决 这 类 问题 称 为 计算 机 代数 ， 现 
在 称 为 符号 计算 。CAS 可 以 分 为 两 类 : 一 类 是 通用 CAS， 另 一 类 是 解决 特殊 问题 的 专用 CAS。 通 
用 CAS 可 以 应 用 于 大 多 数 代数 领域 , 而 专用 CAS 是 面向 某 个 具体 领域 的 ， 如 群 论 和 数论 。 在 大 多 
数 科学 计算 问题 中 ， 我 们 都 使 用 通用 CAS 计 算数 学 表达 式 。 






































4.2.2 通用 CAS 的 特点 
科学 计算 中 使 用 的 通用 CAS 具 有 以 下 特点 。 























@ 如 商业 数学 软件 Mathmatics。 一 一 译 者 注 
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口 具有 操作 数学 表达 式 的 用 户 界面 。 

口 编程 与 调试 的 界面 。 

口 该 系统 需要 对 不 同 的 数学 表达 式 进 行 简化 。 因 此 , 简化 右 ( simplifier ) 是 CAS 系 统 的 核心 
组 件 。 

口 通用 CAS 必 须 支 持 大 量 的 数学 函数 ， 才 能 完成 任意 代数 计算 需要 的 数学 功能 。 

口 大 多 数 场景 中 计算 量 都 很 大 ， 所 以 内 存 管理 至 关 重 要 。 

口 系统 必须 支持 高 精度 与 大 数 计算 。 





























4.2.3 SympPy 设计 理念 简介 


SymPy 是 Python 版 的 开源 计算 机 代数 系统 实现 。SymPy 的 设计 理念 是 设计 与 开发 一 套 功能 
全 的 CAS, 代码 尽 可 能 简单 ,保持 高 度 的 易 扩展 性 。 它 是 纯 Python 代 码 写 的 , 没有 任何 第 三 方 库 。 
Sympy 的 基本 思路 是 创建 与 操作 数学 表达 式 。 用 户 借助 SymPy 可 以 用 Python 语言 写 数学 表达 


式 一 一 通过 SymPy 类 和 对 象 。 这 些 表 达 式 由 数字 、 符 号 、 运 算 符 、 函 数 等 构成 。 函 数 都 是 一 些 实 
现 数 学 功能 的 模块 ， 如 对 数 函 数 与 三 角 函 数 。 


SymPy 的 开发 是 Ondiej Certik 从 2006 年 8 月 开始 的 。 此 后 ， 不 断 有 开发 者 加 入 项 目 ， 规 模 达 
到 了 几 百 人 。 现 在 这 个 程序 库 包 括 26 个 模块 。 这 些 模块 可 以 满足 常用 的 计算 需求 ， 如 符号 计算 、 
积分 、 代 数 、 离 散 数学 、 量 子 物 理 、 画 图 与 打印 等 ， 计 算 结 果 还 可 以 输出 为 LaTeX 或 其 他 格式 。 

SymPy 的 能 力 可 以 分 为 两 类 能 力 和 高 级 能 力 ， 因 为 SymPy 程 序 库 分 为 一 个 核心 模块 
和 多 个 高 级 可 选 模块 。 这 些 由 不 同 模块 支持 的 6E 力 介绍 如 下 。 

1. 核心 能 力 


核心 能 力 模块 支持 数学 代数 运算 需要 的 基本 功能 。 这 些 运 算 包 括 基 本 算术 运算 ,如 加 减 乘除 
和 竹 运 算 。 核 心 模块 还 具有 数学 式 简化 的 能 力 ， 可 以 对 复杂 的 数学 式 进行 简化 。 它 也 提供 了 级 数 
与 符号 展开 的 能 力 。 


核心 模块 还 支持 三 角 函 数 、 双 曲线 、 指 数 函 数 、 方 程 根 求解 、 多 项 式 、 阶 乘 、 件 玛 函 数 、 对 
数 函 数 等 功能 ， 以 及 B- 样 条 曲线 、 球 面 调和 函数 、 张 量 函 数 和 正 交 多 项 式 等 特殊 函数 。 


核心 模块 中 还 有 强大 的 模式 匹配 运算 支持 。 另 外 ，SymPy 的 核心 能 力 还 有 代数 运算 的 等 价 幸 
换 功能 。 它 不 仅 支持 整数 、 有 理 数 、 浮 点 数 的 高 精度 算术 运算 ， 还 支持 多 项 式 运 算 中 的 非 可 交换 
变量 和 符号 。 


2. 多 项 式 
多 项 式 模块 中 有 大 量 的 函数 处 理 多 项 式 运算 。 这 些 函 数 包括 多 项 式 除法 、 最 大 公约 数 ( greatest 
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common divisor, GCD )、 最 小 公 倍数 (least common multiplier, LCM )、 无 平方 因 式 分 解 ( square-free 
factorization )、 带 符号 系数 (symbolic coefficient ) 的 多 项 式 表 示 。 还 有 一 些 特殊 功能 ， 如 合 矢 量 
的 计算 、 三 角 恒 等 式 的 推导 、 部 分 分 式 分 解 、Gr6bner 基 ( Grobner basis ) 的 多 项 式 环 和 域 。 


3. 微 积分 


微 积分 模块 中 有 大 量 的 基础 与 高 级 微 积 分 运算 功能 的 支持 。 它 有 一 个 1imit 函 数 , 可 以 设置 
积分 上 下 限 。 它 还 支持 导数 、 积 分 、 级 数 展 开 、 微 分 方程 以 及 有 限 差分 运算 。SymPy 还 支持 定 积 
分 与 积分 变换 。 在 微分 中 ， 还 支持 数值 微分 、 复 合 导 数 与 分 数 阶 导数 。 


4. 方程 式 求解 


求解 器 〈solver ) 是 SymPy 中 求 方程 式 解 的 模块 。 这 个 模块 具有 解 复数 多 项 式 、 多 项 式 的 根 
以 及 多 项 式 组 的 能 力 。 它 有 一 个 函数 可 以 解 代 数 方程 式 。 它 不 仅 可 以 解 微分 方程 问题 (包括 常 微 
分 方程 、 偏 微分 方程 、 初 始 值 与 边界 值 的 问题 等 )， 还 可 以 解 差分 方程 。 在 数学 上 ， 差 分 方程 也 
称 为 递归 关系 式 ， 也 就 是 方程 递归 地 定义 序列 与 多 维 数组 的 值 。 


5. 离散 数学 


离散 数学 指 变 量 特征 是 离散 的 数学 分 文 ， 与 连续 变量 的 数学 〈 微 积 分 ) 区 分 开 来 。 它 主要 
处 理 整 数 、 图 形 ， 以 及 逻辑 学 中 的 观点 问题 。 这 个 模块 对 二 项 式 系 数 、 乘 积 与 求 和 运算 有 完整 
的 支持 。 


这 个 模块 还 支持 数论 中 的 许多 函数 ,包括 残 差 理 论 、 欧 拉 公 式 、 分 割 理论 以 及 处 理 质 数 与 
数 分 解 的 许多 函数 。SymPy 还 文 持 利用 符号 与 布尔 值 来 创建 和 操作 人 逻辑 表达 式 。 


6. 矩阵 


SymPy 具 有 强大 的 矩阵 与 行列 式 计算 的 功能 。 怎 阵 属 于 线性 代数 的 数学 分 支 。SymPy 支 持 矩 
阵 创 建 、 基 本 运算 (如 乘法 与 加 法 )、 全 0 和 矩阵 与 全 1 矩阵、 随机 和 矩阵 以 及 针对 和 矩阵 元 素 进 行 的 运 
算 。 它 还 支持 一 些 特殊 函数 ， 如 计算 海 森 矩 阵 (Hessian matrix ) 的 函数 、 一 组 向 量 的 格拉 姆 - 施 
密 特 (Gram-Schmidt ) 正 交 化 函数 、 朗 斯 基 行 列 式 (Wironskian ) 计算 的 函数 ， 等 等 。 

男 外 ，SymPy 还 支持 特征 值 和 特征 向 量 的 计算 、 和 矩阵 转 置 ， 以 及 矩阵 与 行列 式 求解 。 还 支持 
矩阵 的 行列 式 计算 ,支持 Bareis 因 式 分 解 算法 和 Berkowitz 算 法 等 。 矩阵 计算 中 , 还 有 零 空 间 (null 
space ) 计算 (方程式 求 解 )、 和 矩阵 代数 余子 式 展 开 ( cofactor expansion ) 工具 、 和 矩阵 元 素 求 导 数 
以 及 对 偶 矩 阵 。 

7. 几何 


SymPy 有 支持 二 维 空 间 各 种 运算 的 模块 ， 可 以 创建 点 、 线 、 圆 、 椭 圆 、 多 边 形 、 三 角形 、 射 
线 和 线段 等 常见 的 二 维 对 象 。 我 们 还 可 以 直接 查询 对 象 的 属性 ,例如 部 分 对 象 的 面积 (椭圆 、 圆 
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和 三 角形 ) 和 直线 之 间 的 交点 。 它 还 可 以 查询 对 象 间 的 相 切 、 相 似 与 相交 属性 。 








8. 画图 


SymPy 中 有 个 模块 可 以 画 出 二 维 图 与 三 维 图 。 现在 图 形 底层 都 是 用 matplotlib 软 件 包 , 也 支持 
TextBackend 、Pyglet 和 textplot 等 软件 包 。SymPy 还 提供 了 很 好 的 自 定义 图 形 与 画 不 同 几 何 图 形 的 
交互 接口 。 


画图 模块 的 画图 功能 如 下 所 示 : 


口 二 维 直线 图 
口 二 维 可 变 参 数 图 
口 二 维 隐 式 与 区 域 图 
口 双 变 量 三 维 图 
口 三 维 直线 与 曲面 图 
9. 物理 学 
SymPy 有 一 个 模块 可 以 解决 物理 学 问题 。 它 支持 力学 功能 , 包括 经 典 力学 与 量子 力学 以 及 高 
能 物理 学 。 它 还 支持 一 维 空间 与 三 维 空间 的 泡 利 代 数 与 量子 谐振 子 。 还 有 光学 相关 的 功能 。 还 有 
一 个 独立 的 模块 将 物理 单位 集成 到 SymPy 里 。 用 户 可 以 选择 相应 的 物理 单位 完成 计算 和 单位 转 
换 。 这 个 单位 系统 是 由 物理 单位 与 常量 构成 的 。 






























































10. 统计 学 


SymPy 的 统计 学 模块 支持 数学 计算 中 涉及 的 许多 统计 函数 。 除了 常见 的 连续 与 离散 随机 分 布 
函数 ， 它 还 支持 符号 概率 相关 功能 。SymPy 里 的 随机 分 布 函 数 都 支持 随机 数 生 成 的 功能 。 





11. 打印 
SymPy 有 一 个 模块 可 以 提供 漂亮 的 打印 功能 。 漂 亮 打印 包括 对 不 同文 体格 式 的 支持 ， 如 源 代 
码 、 文 本 文件 、 标 记 语 言 文件 以 及 其 他 内 容 。 这 个 模块 可 以 通过 ASCI 和 Unicode 生 成 各 种 文字 。 


它 支持 不 同 的 打印 机 ， 如 LaTeX 和 MathML 打 印 机 。 可 以 打印 多 种 编程 语言 生成 的 源 代码 ， 
如 C、Python 和 Fortran。 还 可 以 打印 用 标记 语言 ， 如 HTML 和 XML 格式 ， 生 成 的 内 容 。 




















4.2.4 SympPy 模块 
下 面 的 列表 是 前 面 讨论 到 的 模块 的 名 称 。 


口 Assumptions: 假设 引擎 
口 Concrete: 符号 积 和 符号 总 和 
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口 Core basic class structure: 基本 的 、 加 、 乘 、 指 数 等 
口 Functions: 基本 的 函数 和 特殊 的 函数 

口 Galgebra: 几何 代数 

口 Geometry: 几何 实体 

口 Integrals: 符号 积分 

口 Interactive: 交互 会 话 ( 如 IPython ) 

口 Logic: 布尔 代数 和 定理 证 明 

口 Matrices: 线性 代数 和 和 矩 阵 

口 mpmath: 快速 的 任意 精度 的 数值 运算 

口 ntheory: 数论 函数 

口 Parsing: 数学 的 和 最 大 化 的 句法 分 析 

口 Physics: 物理 单位 和 量子 相关 

口 Plotting: 用 Pyglet 进 行 二 维和 三 维 的 画图 

口 Polys: 多 项 式 代数 和 因 式 分 解 

口 Printing: 漂亮 的 打印 和 代码 生成 

口 Series: 符号 极限 和 截断 的 序列 

D Simplify: 用 其 他 形式 改写 表达 式 

D Solvers: 代数 、 循 环 和 差分 

D Statistics: 标准 概率 分 布 
D Utilities: 测试 架构 和 兼容 性 相关 的 内 容 


在 各 种 数学 工具 箱 中 有 多 种 符号 计算 系统 可 供 使 用 。 有 如 Maple 和 Mathematica 这 样 的 商业 软 
件 ， 也 有 如 Singular 和 AXIOM 这 样 的 开源 软件 。 但 是 这 些 产 品 有 它们 自身 的 脚本 语言 。 很 难 扩展 
它们 的 功能 ， 并 且 这 些 软件 的 开发 周期 也 很 慢 。 而 SymPy 高 度 可 扩展 ， 它 由 Python 设计 和 开发 ， 
是 一 个 开源 的 支持 快速 开发 周期 的 API。 






























































4.2.5 简单 的 范例 程序 


这 里 用 一 些 非 常 简 单 的 示例 来 帮助 你 理解 SymPy 的 能 力 。 这 些 不 到 10 行 的 SymPy 源 代码 包含 
了 从 基本 符号 操作 到 极限 .差分 和 积分 等 主题 .我 们 可 以 使 用 谷歌 App 引 擎 上 的 在 线 运行 的 SymPy 
来 运行 这 些 SymPy 程 序 ， 其 网 址 是 http:Vlive.sympy.org/。 


1. 基本 符号 操作 
下 面 的 程序 定义 了 三 种 符号 和 用 这 些 符 号 组 成 的 一 个 表达 式 ， 之 后 打印 了 这 个 表达 式 : 














import sympy 
a = Sympy.Symbol('a') 
b = sympy.Symbol('b') 


62 第 4 章 Python 科学 计算 API 





C = Sympy .Symbol('c') 
人 
print e 


输出 结果 是 : 

axx2 + 3xaxDxx2 + Cx*2 
这 里 ** 表 示 指 数 运算 。 
2. SymPy 的 表达 式 扩 展 


下 面 的 程序 展示 了 表达 式 扩 展 的 概念 。 它 定义 了 两 个 符号 和 由 这 两 个 符号 组 成 的 一 个 简单 表 
达 式 。 最 后 它 打印 了 这 个 表达 式 及 其 扩展 形式 : 








import sympy 
a = sympy.Symbol('a') 
b = sympy.Symbol('b') 





人 = as 二) 
print e 

print e.expand() 
输出 结果 是 : 





(a + D) xx4 
axxA + Axaxx*3*b + 6*axx2*b*x2 + 4xaxDxx3 + Dx**4 


3. 表达 式 或 公式 的 简化 


SymPy 可 以 很 便利 地 简化 数学 表达 式 。 下 面 的 程序 简化 了 两 个 表达 式 ， 然 后 显示 了 简化 后 的 
表达 式 结 











import sympy 

x = Sympy.Symbol('x') 
a= 1/x + (x*exp(x) - 1)/x 

simplify(a) 

simplify((x ** 3 +Xxrr2 -X- 1)/(x**2+2*xXx+ 1)) 


输出 结果 是 : 








ex 
上 


4. 单 的 积 
下 面 的 程序 计算 了 两 个 简单 函数 的 积分 : 





import sympy 
from sympy import integrate 
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x = sympy.Symbol('x') 
integrate(x ** 3 + 2 * x ** 2 + XxX, X) 
integrate(x / (x ** 2 + 2 * x), xX) 


输出 结果 是 : 


pt he Se AE De 
log(x + 2) 

















4.3 数据 分 析 和 可 视 化 的 API 和 工具 


Python 中 有 很 优秀 的 工具 和 API 可 以 用 来 分 析 、 可 视 化 和 展示 数据 和 计算 的 结果 。 在 以 下 的 
讨论 中 将 介绍 pandas 的 概念 和 操作 。 我 们 会 用 示例 程序 简单 地 讨论 matplotlib 的 图 表 绘 画 并 导出 成 
不 同 格式 。 可 以 将 图 表 导 出 成 图 片 文件 或 PDF 等 其 他 文件 。 在 第 7 章 中 将 详细 讨论 matplotlib 和 
pandas 以 及 IPython 工 具 的 概念 。 








4.3.1 用 pandas 进行 数据 分 析 和 操作 


pandas 是 一 个 用 于 数据 分 析 和 数据 操作 的 工具 包 。pandas 由 一 些 数据 结构 组 成 ， 这 些 数据 结 
构 在 Python 中 用 于 科学 数据 分 析 。pandas 开 发 的 终极 目标 是 设计 一 个 强大 和 灵活 的 数据 操作 和 分 
析 工 具 。 它 提供 了 有 效 、 灵 活 和 意义 重大 的 数据 结构 ,特殊 的 设计 使 得 它 能 够 处 理 任意 种 类 的 数 
据 。pandas 可 以 用 于 大 部 分 常用 的 数据 库 和 数据 集 。pandas 是 在 NumPy 的 基础 上 开发 的 。 


因此 它 支持 与 Python 其 他 的 科学 计算 API 和 工具 进行 整合 。pandas 可 以 用 于 以 下 所 有 类 型 的 
数据 。 


口 表格 数据 ， 例 如 关系 型 数据 库 或 电子 表格 〈 如 微软 Excel )。 
口 有 序 或 无 序 的 时 间 序 列 数据 。 

D 多 维 阵列 数据 ， 例 如 带 有 行 和 列 标签 的 矩阵 。 

口 用 于 存储 第 3 章 中 提 到 的 任意 格式 的 科学 数据 的 任意 数据 集 。 


1. pandas 的 重要 数据 结构 


pandas 数 据 结构 的 范围 可 以 从 一 维 到 三 维 。Series 是 一 维 的 ，DataFrame 是 二 维 的 ，Panel 是 三 
维 甚 至 更 高 维 的 数据 结构 。 高 维 ( 如 四 维 ) 数 据 结 构 目 前 仍然 在 开发 中 。 通常 , Series 和 DataFrame 
可 以 用 于 大 多 数 统 计 、 工 程 、 财 务 和 社会 科学 的 场景 


D Series: 它 是 一 个 带 标签 的 一 维 数组 ， 可 以 用 于 存储 任意 数据 类 型 ， 例 如 整 型 、 浮 点 数 、 
字符 串 和 其 他 有 效 的 Python 对 象 。 它 的 轴 的 标签 也 称 作 index。 
口 DataFrame: 它 是 一 个 带 标签 的 二 维 数组 ， 有 行 和 列 。 列 可 以 有 多 种 类 型 。DataFrame 可 以 
看 作 类 似 二 维 结构 ， 例 如 电子 表格 和 数据 库 表 格 。DataFrame 也 可 以 看 作 包 含 多 个 不 同类 




























































































64 第 4 章 Python 科学 计算 API 








型 的 Series 的 集合 。 

口 Panel: 在 统计 学 和 经 济 学 中 ， 面 板 数据 ( panel data ) 指 多 维 数据 ， 这 个 多 维 数据 包括 不 
同时 间 的 不 同 测量 结果 。 该 数据 结构 的 名 称 来 源 于 其 概念 。 与 Series 和 DataFrame 相 比 , 面 
板 数据 是 不 太 常 用 的 一 种 数据 结构 。 


2. pandas 的 特点 


下 面 是 pandas 的 一 些 突出 特性 。 





























口 它 提 供 了 针对 pandas 数 据 结构 以 及 CSV、 微 软 Excel 、SQL 数 据 库 和 HDF5 等 数据 格式 的 数 
据 的 操作 便利 性 。 

口 它 被 高 度 地 优化 以 获得 高 性 能 ， 其 关键 代码 是 用 Cython 和 C 开 发 的 。 

口 它 支 持 用 切片 、 索 引 和 子 集 进行 大 数据 集 的 分 割 。 

口 它 提供 自动 和 简洁 的 数据 对 齐 。 通 过 用 标签 集合 简洁 地 将 对 象 进行 对 齐 。 如 果 用 户 忽 略 
标签 ， 那么 数据 结构 会 自动 对 齐 数据 。 

口 数据 结构 支持 大 小 动态 变化 ， 因 为 列 可 以 被 插入 或 删除 。 

口 pandas 拥 有 强大 的 group by 操作 引擎 ，group by 操作 用 于 数据 的 聚合 和 变换 。 

口 它 还 支持 用 于 数据 整合 的 高 效 的 合并 和 连接 操作 。 

口 它 还 用 到 重新 索引 以 管理 缺失 数据 的 概念 。 缺 失 数据 是 指 空 的 或 不 存在 的 数据 。 

口 pandas 还 对 时 间 序 列 功能 有 很 好 的 支持 。 这 些 功 能 包括 移动 窗口 统计 信息 、 日 期 范围 的 生 
成 和 频率 转换 、 日 期 移 位 和 延迟 、 移 动 时 间 窗 口 线性 回归 等 。 















































4.3.2 用 matplotlib 进行 数据 可 视 化 


matplotlib 是 用 于 数据 可 视 化 的 Python API， 是 最 广泛 使 用 的 二 维 图 像 Python 包 。 它 提供 了 一 
个 快速 可 定制 的 数据 可 视 化 方法 ,并 实现 不 同 格式 图 片 的 发 布 。 它 支持 多 维 图 表 的 绘画 。matplotlib 
中 规定 了 图 表 的 大 多 数 属性 的 默认 值 , 但 这 些 值 是 可 以 定制 的 。 用 户 可 以 控制 任意 图 表 的 几乎 所 
有 设置 ， 例 如 图 的 大 小 、 线 的 宽度 、 颜 色 和 类 型 、 坐 标 轴 、 点 的 属性 、 文 本 的 属性 ( 例如 字体 、 
字面 和 字号 )。 


我 们 来 讨论 一 些 示例 。 示 例 中 用 到 不 同 格式 的 绘画 和 不 同 格式 的 导出 。 


















































4.3.3 用 1IPython 实现 Python 的 交互 式 计算 


Python 有 两 种 流行 的 编程 方式 : 交互 式 编程 与 脚本 文件 。 一 些 程序 员 比 较 喜 欢 与 脚本 打交道 。 
通常 他 们 用 一 个 文本 编辑 器 来 写 自 己 的 程序 , 用 终端 来 执行 或 进行 其 他 操作 , 例如 程序 调试 。 然 
而 , 科学 计算 应 用 通常 需要 一 个 良好 的 交互 式 计算 环境 。 在 交互 式 计算 中 , 任何 时 候 计 算 环境 都 
可 以 处 理 人 们 输入 的 内 容 ， 可 能 来 自命 令 行 或 图 像 用 户 界 面 。Python 科 学 计算 API 通 过 IPython 及 
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与 其 绑 定 的 工具 集合 获得 一 个 交互 式 计算 环 境 。IPython 广 泛 用 于 各 种 科学 计算 应 用 中 , 例如 数据 
管理 、 数 据 操作 、 数 据 分 析 、 数 据 可 视 化 、 科 学 计算 和 大 规模 计算 。 


我 们 来 讨论 在 IPython 中 用 NumPy、SymPy、pandas 和 matplotlib 进 行 计算 的 一 些 例子 。 





4.3.4 ”数据 分 析 和 可 视 化 的 示例 程序 


这 一 小 节 将 讨论 用 matplotlib 和 pandas 进 行 数据 分 析 和 可 视 化 的 示例 程序 。 如 果 你 没有 本 地 安 
装 的 pandas 和 matplotlib ， 可 以 用 在 线 的 IPython ， 网 址 是 https://www.pythonanywhere.com/ 
try-ipython/。 


首先 需要 一 些 用 于 分 析 或 可 视 化 的 数据 。 下面 的 程序 从 雅虎 财经 获取 了 苹果 公司 从 2014 年 10 
月 1 日 至 2015 年 1 月 31 日 的 数据 ， 并 将 该 数据 存储 在 一 个 CSV 文 件 中 : 


import pandas as pd 
import datetime 
import pandas.io.data 



































start = datetime.datetime(2014, 10, 1) 
end = datetime.datetime(2015, 1, 31) 


apple = pd.io.data.get_data yahoo('AAPL', start, endgd) 

print (apple.head()) 

apple.to_csv('apple-data.csv') 

df = pd.read csv('apple-data.csv', index_ col='Date', parse_ dates=True) 












































df.head () 
以 下 是 输出 。 
Open High Low Close Volume Adj close 

Date 

10/1/2014 100.59 100.69 98.7 99.18 51491300 98.36 
10/2/2014 99.27 100.22 98.04 99.9 47757800 99.08 
10/3/2014 99.44 100.21 99.04 99.62 43469600 98.8 
10/6/2014 99.95 100.65 99.42 99.62 37051200 98.8 
10/7/2014 99.43 100.12 98.73 98.75 42094200 97.94 











下 面 的 程序 对 前 面 例子 中 的 .csv 文 件 中 的 数据 进行 画图 。 它 计算 了 close 的 50 个 移动 平均 值 
(50 MA )。 然 后 在 二 维 图 像 中 画 出 open 、close 、high 、low 和 50 个 移动 平均 值 。 下 面 的 截图 是 程 
序 输出 的 图 像 。 
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下 面 是 程序 : 


import pandas as pd 
import matplotlib.pyplot as plt 


df = pd.read csv('apple-data.csv', index col = 'Date', parse_ 
dates=True) 

df['H-L'] = df.High - df.Low 

df['5OMA'] = pd.rolling mean(df['Close'], 50) 
df[['Open','High','Low','Close','SOMA']] .plot() 

plt.show!() 


现在 下 面 的 程序 对 同样 的 数据 进行 了 三 维 绘图 : 


import pandas as pd 
import matplotlib.pyplot as plt 
from mpl_toolkits.mplot3d import Axes3D 


df = pd.read csv('apple-data.csv', parse_ dates=True) 
print (df. head()) 

df['H-L'] = df.High - df.Low 

df['5OMA'] = pd.rolling mean(df['Close'], 50) 


threedee = plt.figure() .gcal(projection='3d') 
threedee.scatter(df.index, df['H-L'], df['Close']) 
threedee.set_ xlabel('Index') 
threedee.set_ylabel('H-L') 
长 
p 





hreedee.set_zlabel('Close') 
lt.show!() 





threedee = plt.figure() .gcal(projection='3d') 
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threedee.scatter(df.index, df['H-L'], df['Volume']) 
threedee.set xlabel('Index') 

threedee.set_ ylabel('H-L') 
threedee.set_zlabel('Volume') 

plt.show!() 


前 面 的 程序 的 三 维 绘图 的 截图 如 下 所 示 。 





合 | ©| @| 寺 | 辆 | 回国 x=-5.85996 ,y=5.93616 ,z=92.5493 





4.4 小结 
这 一 章 讨论 了 各 种 科学 计算 API 和 工具 的 概念 、 特 点 和 一 些 示 例 程 序 。 首 先 讨论 了 NumPy 和 
SciPy。 在 介绍 了 NumPy 后 ， 讨 论 了 与 符号 计算 相关 的 概念 和 SymPy。 


之 后 , 讨论 了 交互 式 计算 、 数 据 分 析 和 数据 可 视 化 的 API 和 工具 。 IPython 是 交互 计算 的 Python 
工具 。 还 讨论 了 数据 分 析 包 pandas 和 数据 可 视 化 API matplotlib。 


在 下 一 章 ， 我 们 将 详细 讨论 数值 计算 API NumPy。 还 会 通过 示例 程序 介绍 NumPy 的 各 种 
函数 和 相关 的 数学 概念 。 


数值 计算 








本 章 将 通过 程序 示例 讨论 NumPy 和 SciPy 的 大 部 分 功能 。 首 先 通过 举例 详细 地 讨论 NumPy 和 
SciPy 中 的 数组 和 运算 。 这 会 为 学 习 NumPy 和 SciPy 的 各 种 高 级 功能 打下 坚实 的 基础 。 





这 一 章 将 谈论 以 下 主题 : 
口 用 NumPy 和 SciPy 做 科学 数值 计算 
口 NumPy 的 基本 对 象 
口 NumPy 的 各 种 包 / 模 块 
D SciPy 包 的 基础 知识 
口 SciPy 的 数学 函数 
口 高 级 数学 模块 和 包 
在 Python 中 , NumPy 是 数值 计算 的 基础 ， 其 最 基本 和 最 重要 的 创意 是 支持 多 维 数组 。 我 们 首 
先 讨 论 NumPy 中 数组 的 基本 概念 。 在 了 解 了 基础 知识 之 后 , 再 讨论 可 以 对 多 维 数 组 进行 的 各 种 运 
算 。 还 会 讨论 到 NumPy 支 持 的 各 种 基础 的 和 高 级 的 数学 函数 。NumPy 包 含 一 些 子 包 或 子 模块 , 可 
以 支持 高 级 数学 计算 。 


























5.1 NumPy 的 基本 对 象 

NumPy 和 SciPy 的 所 有 科学 计算 功能 建立 在 NumPy 两 种 基本 类 型 的 对 象 之 上 。 第 一 种 对 象 是 V 
维 数组 对 象 ， 即 ndarray; 第 二 种 对 象 是 通用 函数 对 象 ， 即 ufunc。 除 了 这 两 种 对 象 ， 还 有 其 他 一 
些 对 象 建立 在 它们 之 上 。 























5.1.1 AN 维 数组 对 象 


ndarray 对 象 是 一 个 同 质 元 素 的 集合 ， 这些 元 素 用 NM 个 整 型 数 索引 ( NN 是 数组 的 维 数 )。ndarray 
有 两 个 重要 的 属性 。 第 一 个 属性 是 数组 中 元 素 的 数据 类 型 ， 称 作 atype; 第 二 个 属性 是 数组 的 维 
度 。 数 组 的 数据 类 型 可 以 是 Python 支 持 的 任意 数据 类 型 。 数 组 的 维度 是 一 个 元 组 ( N-tuple )， 即 
一 个 包含 N 维 数组 的 N 个 元 素 的 集合 ， 元 组 中 的 每 个 元 素 定义 了 数组 在 该 维度 包含 的 元 素 个 数 。 
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1. 数组 的 属性 
除了 维度 和 atype， 数 组 还 有 其 他 属性 ， 列 举 如 下 ; 


口 大 小 (size) 
口 每 项 的 大 小 (itemsize ) 
口 数据 (data) 
口 维度 (ndim) 


每 项 的 大 小 ( itemsize ) 是 数组 中 每 个 元 素 的 字 节 长 度 。 数 据 〈data ) 属性 是 一 个 Python 
缓存 对 象 ， 该 对 象 指向 数组 数据 的 起 始 位 置 。 可 通过 以 下 的 Python 程序 来 理解 维度 、 数 据 类 型 和 
其 他 属性 的 概念 : 



























































import numpy as np 

X29 "np.array( ( (L100.200.300)., 
CL 222 333)y 
(T23689)3 :) 

x2d.shape 

x2d.dtype 

x2d.size 

x2d.itemsize 

x2d.ndim 

x2d.data 


2. 数组 的 基本 操作 


使 用 方 括号 ( [] ) 来 索引 数组 的 值 称 作 数组 索引 ( array indexing )。 以 上 面 的 程序 中 定义 和 
用 到 的 二 维 数 组 x2a 为 例 , 该 数组 中 的 特定 元 素 可 以 用 x2a [row, column] ee 例如 ,x2aqf[1， 1] 
表示 第 二 行 的 第 二 个 元 素 ( 即 222 )， 索 引 值 的 起 始 值 是 0。 同 样 ，x2ar2,1] 表 示 第 三 行 的 第 

个 元 素 ( 即 456 )。 


数组 切片 是 从 数组 中 选 定 某 些 元 素来 构成 一 个 子 数组 的 过 程 。 对 于 一 维 数组 , 我们 可 以 依次 
从 数组 中 选择 某 些 元 素 。 进而 可 以 通过 切片 获取 二 维 数组 的 一 整 行 或 一 整 列 。 也 就 是 说 我 们 可 以 
在 任 一 维度 选取 数组 元 素 。Python 的 基本 切片 概念 被 扩展 到 了 N 维 数组 中 。 切 片 的 基本 语法 是 
start:stop:stepo 第 一 个 参数 指 切片 的 起 始 位 置 索引 值 ， 第 二 个 参数 是 指 切 片 结 吉 束 位 置 的 索 
引 值 , 最 后 一 个 参数 定义 了 相 加 于 前 一 个 选 定 元 素 索引 值 基础 上 的 步 长 。 如 果 我 们 省 略 前 两 个 参 
数值 中 的 任意 一 个 ,那么 这 个 值 会 被 默认 当 作 零 或 者 大 于 零 。 同 样 ， 步 长 的 默认 值 是 1。 下 面 用 
几 个 例子 来 更 清楚 地 理解 切片 。 


以 x2d 这 个 6x3 的 数组 为 例 。x2911] 等 价 于 x2a[1，:] ， 都 表示 数组 的 第 二 行 ， 该 行 包 含 三 
个 元 素 。 另 一 方面 ，x2dqf[ :，1] 表 示 数 组 的 第 二 列 ， 该 列 包含 六 个 元 素 。 x2d[::3,1] 可 以 选中 
数组 中 第 一列 的 每 三 个 元 素 ， 


省 略 号 可 以 用 来 替换 零 个 或 多 个 冒号 。 一 个 省 略 号 可 以 当 作 零 个 或 多 个 全 切片 的 对 象 , 以 匹 
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配 切片 对 象 的 所 有 维度 ， ee Ee 如 果 x4q 是 一 个 5x6x7x8 


的 数组 ， 那 么 x4Q [2 


4 
的 切片 : 


import numpy 
X = np.array 
3 | 
LQ 
RRL:0-39.03 


X20 = Darrayt( 


“J 


as np 
(Ld 2 


( 
( 
( 
( 
( 
( 





LT0.0: 
dled 
12.3:5 
和 25 
127 
L290» 


25， 


，6] 等 








85. -9.3 


200,300) ， 
222275333 
456,789) ， 
457,791) ， 
P49 93) 
461,795 


价 于 x4d[12 :， 
ee ei re 


35 0 2 


:，6]。 同 样 ，x4g[...，4] 等 价 于 








数组 的 迭代 可 以 用 for 循 环 实现 。 在 一 维 数组 中 ， 可 以 用 for 循 环 连续 地 获得 所 有 元 素 。 另 


一 方面 , 多 维 数组 的 迭代 可 以 通过 考虑 到 第 


实现 数组 的 迭代 : 


import numpy 
X = np.array 


R24 = np,.array( 


for i in x: 
print i 


as np 
([1,12, 


( 
( 
( 
( 
( 
( 


for row in x2d: 
print row 


3. 数组 的 特殊 操作 (变形 及 转换 ) 


有 rav a 
和 reshape 方 法 返回 修改 了 维度 的 变量 (被 调用 的 对 象 )， 而 resize 和 指定 数组 维度 属性 的 办 法 


为 了 实现 数组 





则 修改 了 实际 数组 


的 变形 ， 


EE; 
1237 
L225. 
2 
29 


2 


85 15 


3.3.30).» 


(100,200,300), 
222， 
456, 
457， 
459, 
461, 


39.y. :0 J, 


reshape、 r 





一 维 数据 的 多 重 循 环 来 实现 。 下面 的 程序 展示 了 如 何 


size 和 指定 数组 维度 属性 等 方法 。ravel 

















的 维度 。ravel 方 法 将 数组 展开 成 C 语 言 类 型 的 数组 ， 它 返回 的 变量 被 当 作 一 


个 一 维 数组 ， 这 个 数组 按 和 


我 们 用 下 面 的 程序 来 讨论 这 些 方法 的 影响 。 这 
print 困 数 输出 的 是 原始 数组 。 ravel 国 数 将 展示 展开 的 数组 。 而 ravel 孙 数 之 后 的 print 销 数 再 
次 展示 了 原始 数组 ， 因 为 ravel 孙 数 并 未 改变 原始 数组 。 现 在 uresize 函 数 将 原始 的 6 行 3 列 的 数 











了 依次 展开 成 一 个 一 维 数组 。 





个 程序 实现 了 二 维 数组 的 变形 操作 。 第 一 个 
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组 (6,3) 变 形 为 3 行 6 列 的 数组 (3, 6) 。 因 此 resize 之 后 的 print 函 数 将 输出 变形 之 后 的 数组 形状 。 


现在 我 们 对 原始 数组 (6,3) 应 用 了 reshape 哺 数 。 但 是 由 于 reshape 不 改变 原始 数组 的 形 
状 ， 在 reshape 国 数 之 后 的 print 困 数 将 会 打印 出 (3,6) 的 数组 。 最 后 一 种 方法 是 指定 数组 的 形 
状 为 (9,2) ， 将 数组 的 形状 变 成 (9,2) 。 


最 重要 的 是 要 记 住 ， 当 做 *eshape 变 换 时 ， 新 数组 的 总 大 小 仍然 不 变 : 























import numpy as np 

X29 = Mparvay tt C100 2000300%); 
(由 
CE23%45677890). 
CL2.55 L457 79L) 
(12.7459:77.93) 
(T290461) 05) )) 

print x2d 

x2d.ravel () 

Drint xX2d 

x2d.resize( (3,6)) 

print x2d 

x2d.reshape (6,3) 


print R29 
x2d.shape = (9,2) 


print x2d 











如 果 需 要 的 话 ， tLTStx tofile 和 tostring 可 以 分 别 将 数组 转换 为 Python 列 表 数 据 结构 、 
存储 的 文件 和 字符 串 


4. 与 数组 相关 的 类 


有 一 些 类 和 子 类 是 和 ndarray 类 相关 的 。 这 些 类 的 目的 是 为 了 支持 特定 的 增强 功能 。 下面 将 
讨论 这 些 类 和 子 类 。 

(1) 矩阵 子 类 

matrix 类 是 ndarray 的 Python 子 类 。 一 个 矩阵 能 够 通过 其 他 抢 阵 或 字符 串 生 成 ， 或 者 通过 其 
他 可 以 转化 为 ndarray 的 对 象 生成 。matrix 子 类 拥有 特殊 的 覆 六 运算 符 ， 例 如 * 是 矩阵 的 乘 ，** 
是 矩阵 的 震 运 算 。matrix 类 提供 的 一 些 函数 可 以 实现 多 种 功能 ， 例 如 元 素 排序 、 转 置 计算 、 和 拢 
阵 元 素 的 求 和 、 将 矩阵 转换 为 列表 或 者 其 他 数据 结构 和 数据 类 型 。 下 面 的 程序 定义 了 两 个 3 行 3 
列 的 矩阵 。 最 后 程序 输出 了 两 个 和 矩阵 的 乘积 : 
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import numpy as np 
dt 9 
print a 

1 ETIBD.iattix( dd 9 6277 B910 L112) 
print b 

print a*b 
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(2) 掩 码 数组 


NumPy 有 一 个 生成 掩 码 数 组 的 模块 mumpy.ma。 掩 码 数 组 是 一 个 包含 一 些 非法 的 、 缺 失 的 、 


























未 预料 的 实体 的 正常 数组 。 掩 码 数 组 有 两 个 组 成 成 分 : 原始 ndarray 和 一 个 掩 码 。 掩 码 是 由 布尔 逻 
辑 值 组 成 的 数组 ， 可 以 用 来 判定 数组 的 值 是 有 效 还 是 无 效 。 掩 码 中 的 一 个 true 值 反应 了 数组 里 

















相应 的 值 是 无 效 的 。 在 掩 码 数组 后 面 的 计算 中 ,这 些 无 效 的 实体 将 不 会 用 到 。 
掩 码 数组 的 概念 。 假 设 原始 数组 x 里 包含 不 同人 的 脉搏 率 ， 并 目 其 中 有 两 个 非 
这 两 个 非法 实体 ， 掩 码 中 相应 的 值 被 设置 成 1 ( true )。 最 后 我 们 计算 原始 数 
均值 。 没 用 掩 码 处 更 


import numpy as np 

import numpy .ma as ma 

x hparray(l72; 19, .85 907 
mx = ma.masked_array (x, mask=[0, 
mx2 = ma.masked_ array (x,mask=x<0) 
X.mean () 

mx.mean () 























60, 
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150， 
0 ， 


3 
0, 0, 


120¢ 
0, 


40 
Os 


mx2 .mean () 


(3) 结构 化 的 数组 








下 一 个 程序 展示 了 
法 实体 。 为 了 掩盖 
组 和 掩 码 数 组 的 平 

















的 平均 值 是 61 . 1, 因为 包含 两 个 负 值 , 而 用 掩 码 进行 处 理 后 的 平均 值 是 94 .5: 


NumPy 的 ndarray 能 包含 记录 类 型 的 值 。 为 了 生成 一 个 记录 类 型 的 数组 , 首先 需要 生成 记录 类 
型 的 数据 类 型 ， 然 后 用 这 种 数据 类 型 的 元 素 构建 数组 。 这 种 数据 类 型 可 以 通过 atype 在 数组 定义 






































中 定义 。 下 面 的 程序 中 生成 了 一 个 记录 类 型 的 数组 ,这 个 数组 中 包含 城 
温 。dtype 了 哨 数 由 
点 型 ( £4 ) 和 包含 30 或 更 少 的 字符 的 字符 虽 


import numpy as np 








和 (a30): 





的 最 低 、 最 高 和 平均 气 
大 部 分 组 成 域 的 命名 和 格式 。 例 子 中 用 到 的 格式 是 32 位 整 


型 (i4 )、32 位 浮 


rectype= np.dtype({'names':['mintemp', 'maxtemp', 'avgtemp', 'city'], 
"formate Til id Ti4T WE tad TF) 

a Earray(Ll(l0 44 20»%27. "Iiidorer )» (1L0). M2. 252» "MimDad)y (2748,. 3.0; 
'Delhi')],dtype=rectype) 

print a[0] 

print a[l'mintemp'] 

print al[l'maxtemp'] 

print al[l'avgtemp'] 

DETNt:. SOC 


5.1.2 通用 函数 对 象 





通用 函数 (unfunc ) 是 对 ndarray 进 行 一 个 元 素 一 个 元 素 操作 的 函数 。 它 也 支持 广播 、 
E。 在 NumPy 中 , 广播 是 对 不 同 维度 数组 的 操作 过 程 。 特 别 是 在 数学 运 








转换 和 一 些 其 他 重要 的 特 和 


















































ER 容 。 通 用 也 数 即 是 





算 中 , 较 小 维度 的 数组 要 在 大 维度 的 数组 中 广播 ,以 使 其 维度 和 大 维度 数组 前 
NumPy 中 ufunc 类 的 实例 。 
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1. 属性 


每 个 通用 函数 都 有 一 些 属性 , 但 是 用 户 无 法 设置 这 些 属性 的 值 。 下 面 是 通用 函数 的 属性 ,这 
是 一 些 通用 函数 的 信息 属性 。 


口 _gdoc__: 它 包含 了 ufunc 函 数 的 doc 字 符 串 。 其 第 一 部 分 是 基于 命名 、 输 入 的 数量 和 输 
出 的 数量 动态 生成 的 。 第 二 部 分 是 在 函数 生成 时 定义 的 ， 并 存在 函数 中 。 

口 name : 这 是 ufunc 的 命名 。 

口 ufunc.nin: 这 表示 总 的 输入 数量 。 

DQ ufunc.nout: 

口 ufunc.nargs: 这 表示 总 的 变量 数 ， 包 括 输入 和 输出 的 数量 。 

口 ufunc.ntypes: 这 表示 这 个 困 数 定义 的 类 型 的 种 类 

口 ufunc.types: 这 个 属性 返回 函数 定义 的 ntypes 种 具体 类 型 的 列表 。 

口 ufunc.identity: 这 表示 这 个 函数 的 值 。 


















































2. 方法 
所 有 的 通用 函数 ufunc 有 5 种 方法 ， 如 下 所 示 。 前 4 种 方法 的 通用 函数 包含 两 个 输入 变量 ,， 返 


回 一 个 输出 变量 。 这 些 方 法 在 调用 其 他 函数 失败 时 会 报 出 ValueError 异 常 。 第 五 种 方法 允许 用 
户 利用 索引 做 位 置 操 作 。 下 面 是 每 个 NumPy 通 用 也 数 可 用 的 方法 。 


口 ufunc.reduce: 在 一 个 坐标 轴 应 用 通用 也 数 时 ， 0 
Dufunc.accumulate: 它 可 以 在 对 所 有 元 素 使 用 同一 个 运算 符 时 积累 结果 。 

DQ ufunc.reduceat: ee dt 

口 ufunc.outer (A,B): 它 对 所 有 (a, b) 应 用 通用 函数 操作 符 , 其 中 a 包含 于 A,，b 包 含 于 B。 
D ufunc.at: Ra 二 未 缓存 的 位 置 操作 。 


3. 各 种 可 用 的 通用 函数 


目前 NumPy 支 持 超 过 60 种 的 通用 函数 。 这 些 函 数 包 括 广 泛 的 操作 ， 如 简单 的 数学 运算 ( 加 、 
减 、 求 模 、 取 绝对 值 )、 开 方 、 星 运算、 指数 运算 、 三 角 运 算 、 比 特 位 运算 、 比 较 和 浮 点 运算 。 
通常 最 好 选择 利用 这 些 函 数 而 不 选择 循环 ， 因 为 相 比 于 循环 这 些 函 数 更 高 效 。 


下 面 的 程序 展示 了 一 些 通用 函数 的 运用 : 



























































import numpy as np 

Xl, Bay tt 2 V9 8 90 01300 .135 F205 S10 G0 .0.0) 
2 eave 2 £9 By 9 0 LO: S13 "1205. S10 05 .100) 
x_angle = np.array ([30, 60, 90, 120, 150, 180]) 

Sd MD artay [9sy. 6 25 5225%.- .4400 6251) 

Bit END EF [2 iv 8, -16.7 132.. 二] ) 
np.greater_equal (x1, x2) 

np.mod (x1, x2) 


数值 计算 





来 检验 一 个 值 是 不 是 nan。 三 角 函 数 需要 角度 值 度数 的 变量 。 
乘 以 180/mumpy.pi 来 实现 度数 的 转换 。 比 特 位 左 移 1 位 执行 的 是 变量 乘 以 2。 
这 些 通用 函数 都 是 对 数组 进行 操作 ， 如 果 有 非 数 组 的 变量 的 话 ， 
过 广播 机 制 当 作 一 个 数组 , 然后 执行 逐 元 素 的 操作 。 这 


位 执行 的 是 变量 除 以 3。 通常 ， 


那么 这 个 变量 通 


np .exp (x1) 
np.reciprocal (x1) 


np.negative (x1) 


np.isreal (x1) 
np.isnan(np.1l1o0g10 (x1)) 

np.sgqrt (np.square (x_sqr)) 
np.sin(x_angle*np.pi/180) 
np.tan (x_angle*np.pi/180) 
np.right_shift (x_ bit,1) 

np.left_shift 


在 Python 中 ， 如 有 














行 的 操作 。 











(x_bit,1) 


RR 有 一 个 值 不 能 用 数字 表示 ， 那 么 这 个 值 就 是 空 值 nan。 例 如 ， 如 果 对 前 一 
个 程序 中 的 x1 数 组 做 1o0g10 的 通用 函数 运算 ， 那么 输出 值 就 是 an。 有 一 



































5.1.3 NumPy 的 数学 模块 


这 些 功 





征 











NumPy 加 入 了 特定 功能 的 模块 ， 例 如 线 怡 
能 捆绑 在 单独 的 模块 中 ， 


D numpy.linalg: 





口 numpy.matlib : 
包括 empty、 

















ZCLOBs 已 于 SS EY 


rapmat、 








一 个 通用 函数 isnan 可 用 











十 进 制 常 数值 是 弧度 值 ， 可 以 通过 











类 似 地 ， 比 特 位 右 移 1 





能 ， 如 数组 和 向 量 的 内 积 


这 就 是 前 一 个 程序 中 最 后 四 


代数 、 离 散 传 里 叶 变换 、 随 机 采样 和 矩阵 代数 库 。 
这 些 模 块 列 举 如 下 。 


这 个 模块 支持 线性 代数 的 各 种 功 
向 量 和 和 矩 阵 的 范 数 ;线性 矩阵 方程 的 解 ; 矩阵 转 置 的 方法 。 

D numpy.fft: 离散 传 里 叶 变 换 在 数字 信号 处 理 中 有 广泛 的 应 用 。 这 个 模块 中 的 函数 可 以 计算 
各 种 类 型 的 离散 傅 里 叶 变 换 ， 包 括 一 维 、 


、 外 积 和 点 积 ; 


二 维 、 多 维 、 转 置 和 传 里 叶 变 换 。 
这 个 模块 包括 那些 默认 返回 矩阵 对 象 而 不 是 ndarray 对 象 的 函数 。 这 些 函数 


rand、 ra 








ndn、bmat、mat 和 和 matrix。 


口 numpy.random: 这 个 模块 包括 在 特定 人 群 或 范围 中 执行 随机 抽样 的 函数 。 它 也 支持 随机 


排列 组 合 的 生成 。 男 外 ， 它 还 包括 一 些 支 持 各 种 基于 统计 分 布 生成 的 随机 抽样 数值 的 也 


下 面 一 个 程序 展示 了 linalg 模 块 中 的 一 些 函 数 的 应 用 。 它 计算 了 范 数 、 转 置 、 
值 和 方 阵 右 
通过 将 它们 当 作 数 组 来 求解 的 。 
的 每 个 元 素 都 相等 时 返回 true。eig 方 法 计算 了 方 阵 的 特 











值 ，v 是 特征 





向 





[三 


于，V[ 























Ar 


是 w[i] 的 特 


,i] 帮 7 


import numpy as np 
from numpy import linalg as LA 


征 向 量 。 


征 值 和 特征 向 量 。 


行列 式 、 特 征 


寺 征 向 量 。 它 还 通过 求解 两 个 方程 2x+3y=4 和 3x+4y=5 展 示 了 线性 方程 的 求解 , 并 且 是 
最 后 一 行 的 a11close 函 数 比较 了 传人 的 两 个 数组 ， 并 且 当 它们 




















返回 值 如 下 : w 是 特 
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arr2dq = np.array(( (100,200,300), 
CEL 222 3 
(C1129 -461;795) 3)) 
eig_val, eig vec = LA.eig(arr2d) 
LA.norm(arr2d) 
LA.det (arr2d) 
LA.inv (arr2d) 
arrl = np.array ([{[2,3], [3,4]]) 
arr2 = np.array ([4,5]) 
results = np.linalg.solvel(arrl1l, arr2) 
print results 
np.allclose(np.dot (arrl, results), arr2) 


随机 抽样 是 科学 和 商业 计算 中 很 重要 的 方面 。 下面 的 程序 展示 了 numpy 随 机 抽样 模块 支持 的 
各 类 函数 中 的 部 分 函数 。 除 了 样本 维度 与 总 体 ， 有 些 分 布 还 需要 一 些 统计 值 ， 例 如 均值 、 众 数 、 
标准 差 。permutation 函 数 随机 排列 一 个 序列 或 者 返回 一 个 排列 范围 ，randint 隐 数 随机 返回 
最 初 的 两 个 变量 所 指定 的 范围 中 的 一 些 元 素 , 而 元 素 的 总 个 数 由 第 三 个 变量 指定 。 剩余 的 方法 返 
回 特定 分 布 中 的 抽样 ， 如 卡 方 检验 、 帕 雷 托 分 布 、 正 态 分 布 和 对 数 正 态 分 布 。 


import numpy as np 

np.random.permutation(10) 

np.random.randint (20,50, size=10) 
np.random.random_ sample(10) 
np.random.chisquare(5,10) # 自由 度 

alpha, location param = 4., 2. 

s = np.random.pareto(alpha, 10) + location param 


























s = np.random.standard normal (20) 


mean, std_ deviation = 4., 2. 
s = np.random.lognormal (mean, std_ deviation, 10) 


5.2 SciPy 的 介绍 


SciPy 包 含 一 系列 子 模块 ， 专 用 于 各 种 科学 计算 的 应 用 。SciPy 社 区 建议 ,科学 家 们 在 补充 某 
个 函数 进 SciPy 前 ， 首 先 应 检查 该 函数 是 否 已 经 包括 在 SciPy 中 。 因 为 几乎 所 有 科学 计算 的 基本 也 
数 已 经 在 SciPy 中 实现 完成 ， 所 以 检查 可 以 省 去 科学 家 们 重新 编写 该 函数 的 精力 。 并 且 ，SciPy 模 
块 已 经 被 优化 并 且 经 过 了 良好 的 缺陷 和 可 能 的 错误 测试 。 因 此 ,利用 SciPy 可 以 获得 很 好 的 性 能 。 


























5.2.1 SciPy 的 数学 函数 

SciPy 是 写 于 NumPy 之 上 的 ， 扩展 了 NumPy 的 功能 以 执行 高 级 的 数学 功能 。NumPy 中 可 用 的 
基础 的 数学 函数 没有 被 重新 设计 以 执行 这 些 功能 。 我们 还 需要 用 到 NumPy 的 函数 , 在 本 章 随 后 的 
程序 中 将 看 到 其 应 用 。 
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5.2.2 ”高 级 模块 /程序 包 


SciPy 的 功能 被 分 成 一 些 独 立 的 任务 特定 的 模块 。 我 们 将 逐个 讨论 这 些 模块 。 为 简洁 起 见 ， 


将 不 会 谈 到 任 一 模块 的 所 有 函数 ， 而 是 给 出 SciPy 中 每 个 模块 的 一 些 示 例 。 
1. 积分 





scipy.integrate 子 包 中 有 儿 个 用 到 不 同 积分 方法 的 积分 函数 ,包括 对 常 微 分 方程 的 积分 。 当 函 


数 对 象 给 定时 ， 可 以 用 儿 种 积分 函数 。 当 固定 样本 给 定时 ， 也 有 儿 种 积分 函数 。 
下 面 是 给 定 函数 对 象 的 积分 函数 。 


口 auad: 通用 积分 

口 dgblquad: 通用 二 重 积分 

口 tplquad: 通用 三 重 积分 

口 nquad: 通用 N 重 积分 

口 fixed_quad: 对 func (x) 做 和 N 维 高 斯 积分 

口 quadrature: 在 给 定 容 限 范围 内 的 高 斯 积分 
口 romperg: 对 函数 做 Romberg 积 分 


下 面 是 固定 样本 给 定时 的 积分 函数 。 


口 cumtrapz: 用 梯形 积分 法 计算 积分 
D simps: 用 辛 氏 法 则 从 样本 中 计算 积分 
口 romb: 用 Romberg 积 分 法 从 Cx*k+ 1) 个 均匀 间隔 的 样本 中 计算 积分 


下 面 是 用 于 常 微分 方程 中 的 积分 函数 。 


口 odqeint: 差分 方程 的 通用 积分 
D odqe: 用 VODE 和 ZVODE 的 方式 进行 ODE 积 4 
口 complex_ode: 将 复数 值 的 ODE 转 化 成 实数 并 积分 
























































来 讨论 上 述 列表 中 列举 的 函数 。quad 函 数 执行 函数 的 通用 积分 ， 积分 范围 在 负 无 穷 大 到 正 无 











穷 大 之 间 。 在 下 面 的 程序 中 ,用 这 个 函数 计算 第 一 类 贝 赛 尔 函数 在 (0,20) 区 间 的 积分 。 

















A 


第 一 类 贝 赛 





尔 函 数 在 special.jv 中 做 了 定义 。 下 面 程序 的 最 后 一 行 用 quad 函数 计算 了 高 斯 积分 : 











import numpy as np 
from scipy import special 
from scipy import integrate 


result = integrate.quad(lambda x: special.jv(4,x), 0, 20) 

print result 

print "Gaussian integral", np.sgqrt (np.pi),quad(lambda x: np.exp(- 
XD) Npinf; Tp int) 
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如 果 函 数 在 积分 时 需要 额外 的 参数 ， 例 如 变量 进行 乘 或 乘 方 的 因子 ， 那 么 这 些 参数 就 可 以 
作为 变量 传人 。 下 面 的 程序 展示 了 将 a、b 和 c 作 为 变量 传人 quad 函 数 。 有 时 积分 会 慢 慢 地 发 散 
或 收敛 : 


import numpy as np 
from scipy.integrate import quad 


def integrand(x, a, b, c): 
return a*x*x+b*x+C 


二 
b= 4 
on 


result = quad(integrand, 0,np.inf, args=(a,b,c)) 
print result 


二 重 积分 和 三 重 积 分 可 以 用 dpblquad 和 tplquad 子 数 来 实现 。 下 面 的 程序 示范 了 dblquad 
函数 的 应 用 。 变 量 t 和 x 的 变化 范围 从 0 到 无 穷 ( inf )。 注 释 后 面 的 代码 在 指定 的 区 间 做 了 高 斯 
积分 : 


import numpy as np 
from scipy.integrate import quad, dblquad, fixed_ quad 











def integrandl (t, x, n): 
return np.exp(-x*t) / t**n 


Ti 二 ,站 
result = dblquad (lambda t, x: integrandl (t, x, n), 0, np.inf, lambda 
x: 0, lambda x: np.inf) 


# 下 面 代码 实现 固定 间隔 的 高 斯 积分 


from scipy.integrate import fixed quad, quadrature 


def integrand (x, a, b): 

return a *x+b 

二 二 :2 

二 兰 

fixed_ result = fixed quad(integrand, 0, 1, args=(a,b)) 
result = quadrature(integrand, 0, 1, args=(a,b)) 


对 于 带 有 任意 间隔 采样 的 函数 的 积分 ， 可 以 用 simps 函 数 。 辛普森 法 则 可 以 估计 三 个 相 邻 点 
间 的 函数 为 抛物 线 函 数 。 下 面 的 程序 演示 了 simps 函 数 : 


import numpy as np 
from scipy.integrate import simps 
def funcl (a,x): 

return a*x**2+2 





def func2 (b,x): 
return b*x**3+4 


x = np.array ([1, 2, 4, 5, 6]) 
VL ,FunclT(2.;x) 
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Intorll :simBes(yL; :xX) 
print (Intgrl11) 


Y2 = func2(3,x) 
TEL2 se :BimDs. (YY2,%) 
print (Intgrl2) 


下 面 的 程序 用 odeint 函数 做 常 微分 方程 的 积分 : 


import matplotlib.pyplot as plt 
from numpy import linspace, array 
def derivative(x,time): 


村: 宇 玉 Zs0 

ot Pe (bl 

return array ([ x[1], a*x[0]+b*x[1] ]) 
time = linspace (1.0,15.0,1000) 
xinitialize = array ([1.05,10.2]) 
X = odeint (derivative,xinitialize,time) 
plt.figure!() 


plt .plot (time,x[:,0]) 
plt.xlabel('t') 
plt.ylabel('x') 
plt.show!() 


2. 信号 处 理 (scipy.signal) 
信号 处 理工 具 箱包 含 一 系列 滤波 函数 、 滤 波 需 设 计 函 数 , 以 及 对 一 维和 二 维 数据 进行 B- 样 条 








重 值 的 函数 。 这 个 工具 箱包 含 的 函数 可 以 进行 以 下 操作 : 
口 卷 积 
口 B- 样 条 
口 滤波 


口 滤波 器 设计 

口 Matlab 式 的 IR 滤 波 器 设计 

口 连续 时 间 的 线性 系统 

口 离散 时 间 的 线性 系统 

口 线性 时 不 变 系 统 

口 信号 波形 

口 窗 冰 数 

口 小 波 分 析 

口 谱 峰 的 找寻 

口 光谱 分 析 

可 通过 一 些 示例 程序 来 理解 信号 处 理工 具 箱 的 功能 。 
detrengd 限 数 是 一 个 滤波 函数 。 该 函数 从 数据 中 沿 着 坐标 轴 去 除 常 量 或 线性 趋势 ,使 得 我 们 
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可 以 看 到 高 阶 的 效果 。 具 体 程 序 如 下 所 示 : 


import numpy as np 

import matplotlib as mpl 

import matplotlib.pyplot as plt 
from scipy import signal 

t = np.linspace(0, 5, 100) 

X=t + np.random.normal (size=100) 
plt.plot(t, x, linewidth=3) 
plt.show!( 
DLC BLOC: 
plt.show!( 


下 面 的 程序 应 用 样 条 滤波 来 处 理 “Lena 的 脸 ”图 像 边缘 , 用 mi sc .1ena 命 令 将 这 张 图 片 数据 
当 作 一 个 数组 。 用 两 个 函数 实现 滤波 功能 。 首先 ，cspline2d 命 令 将 一 个 带 有 镜像 对 称 边界 的 二 
维 FIR 滤 波 器 应 用 于 样 条 系数 。 这 个 函数 比 convolve29 函 数 快 ， convolve2d 函 数 对 任意 二 维 滤 
波 器 卷 积 并 允许 你 选择 镜像 对 称 边 界 : 

Import numpy as np 

from scipy import signal, misc 


import matplotlib.pyplot as plt 
img = misc.lenal() 





t, signal.detrend (x), linewidth=3) 
) 








splineresult = signal.cspline2d(img, 2.0) 

arrtl. snp.array (Ll=L,0% Ty M2072]7, [L011 dtype=np.ftloat32.) 

derivative = signal.convolve2d(splineresult,arr]1,boundary='symm' 
,mode='same') 

plt.figure() 

plt.imshow (derivative) 

plt.title('Image filtered by spline edge filter') 

plt .gray () 

plt.show!() 


3. 傅 里 叶 变 换 (scipy.fftpack) 


对 实数 或 复数 序列 的 离散 侍 里 叶 变 换 和 离散 侍 里 叶 首 变换 可 以 分 别 用 fft 和 ifft 函 数 来 计 
算 ，fft 是 指 快速 傅 里 叶 变 换 。 下 面 的 程序 是 一 个 示例 : 


import numpy as np 

from scipy.fftpack import fft, ifft 
x = np.random.random sample(5) 
让 他) 

print y 

Yinv = 1fft (wy) 

print yinv 


下 面 的 程序 画 出 了 三 个 正弦 函数 的 和 的 FFT: 


import numpy as np 

import matplotlib as mpl 

import matplotlib.pyplot as plt 
from scipy.fftpack import fft 
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x = np.linspace(0.0, 1, 500) 
y= nD sin(l100*np. .pi*x) TF O05*np.sin(l150*np .Di*x) FF 0..75*np. 
sin(200*np.pi*x) 
YE EEG() 
xf = np.linspace(0.0, 0.1, 250) 
import matplotlib.pyplot as plt 
plt olLoti(xf;y 20500 * nprabs (yfEL0:S00L20).) 
PltgrLd() 
plt.show!() 
4. 空间 数据 结构 和 算法 (scipy.spatial) 
空间 分 析 是 一 系列 用 于 分 析 空 间 数 据 的 技巧 和 算法 。 空间 数据 是 指 和 地 理 空间 或 垂直 空间 相 














关 的 数据 对 象 或 元 素 。 这 种 数据 包括 














点 、 线 、 多 边 形 、 其 他 几何 和 
征 信息 可 以 映射 为 位 置信 息 , 用 于 跟踪 或 定位 各 种 装置 。 这 种 提供 











也 理 特征 信息 ， 几 何 和 地 理 特 
也 理 或 空间 位 置信 息 的 数据 可 








能 是 标量 或 是 矢量 的 。 空 间 数据 被 用 于 各 种 领域 的 各 种 应 用 ， 如 地 理学 、 地 理 信 息 系统 /检索 、 











基于 位 置 的 服务 、 基 于 网 页 和 基于 桌面 的 空间 应 有 

















日 、 空 间 挖 气 ， 等 等 。 


KD 树 ( k-dimensional tree，k-d tree ) 是 一 种 空间 划分 数据 结构 。 它 将 所 有 点 构建 在 k 维 空间 
中 。 在 数学 上 , 空间 划分 是 将 一 个 空间 划分 为 多 个 相 邻 空间 的 过 程 。 它 将 空间 分 成 不 重 又 的 区 域 ， 














空间 中 的 每 个 点 只 属于 一 个 区 域 。 





SciPy 拥 有 支持 各 种 空间 计算 功能 的 模块 。 用 户 可 以 计算 Delaunay 三 角 痢 分 、 
果 画 在 二 维 空间 中 。 此 外 ，SciPy 还 支持 KDTree 
查找 算法 ， 还 可 以 对 初始 向 量 集合 进行 距离 矩 


维 西 包 。SciPy 还 有 画图 工具 ,可 以 将 这 些 计算 结 
功能 (scipy .spatial.KDTree ) 实现 快速 近邻 
阵 的 计算 。 

通过 一 些 示 例 程序 来 看 这 些 函 数 。 
pyplot 画 出 : 








import numpy as np 
import matplotlib.pyplot as plt 
from scipy.spatial import Delaunay 
arreeot = rarrtartlioOm Ol. Tom 二 =] 
arr ce Tb-aAreay (lO O04 
darr2 Se TD arraytlO. Lud) 0 ,wy 


triangle_result = Delaunay (arr_pt) 


下 面 的 程序 做 了 Delaunay 三 角 训 分 ， 


Voronoi 图 、N 





并 将 计算 结果 用 





plt.triplot (arrl, arr2, triangle result.simplices.copy()) 
plt.show!() 

和 直人 

plt.show!() 





最 小 的 凸 的 对 象 包括 给 定点 集合 中 的 所 有 点 ， 该 对 象 被 称 作 凸 包 ， 它 可 以 有 








数 来 计算 。 下 面 的 程序 展示 了 convexHu11 这 个 函数 的 应 月 


import numpy as np 





日 convexHu11 了 也 


日 ， 并 将 计算 结果 夯 出 : 
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from scipy.spatial import ConvexHull 
import matplotlib.pyplot as plt 
randpoints = np.random.rand(25, 2) 
hull = ConvexHull (randpoints) 
# 下 面 一 行 代码 画图 
plt.plot (randpoints[:,0], randpoints[:,1], 'x') 
# 通过 for 循 环 画 出 各 个 线段 
for simplex in hull.simplices: 

plt.plot (randpoints[simplex,0], randpoints[simplex,1], 'k') 





plt.show!() 


可 以 用 KDTree 来 查找 点 集中 离 选 定点 最 近 的 点 。 下 面 的 程序 展示 了 KD 树 的 应 用 : 





from scipy import spatial 
x_val, y_val = np.mgrid[1:5, 3:9] 


tree_create = spatial.KDTree(zip(x_ val.ravel(), y_val.ravel ())) 
tree_create.data 
points_for_ query = np.array ([[0, 0], [2.1, 2.9]]) 


tree_ create.query (points_for_query) 


下 面 的 程序 显示 了 最 近 的 距离 和 索引 值 : 


import numpy as np 

import matplotlib.pyplot as plt 

from scipy.spatial import KDTree 

vont = tettar Gh by ls: Es By ly ye 2 ye ye eal ye ey sy 
Ls SR 2 [3 33),} 

tree_create = KDTree (vertx) 

tree_ create.query([1.1, 1.1]) 

x_vals = np.linspace(0.5, 3.5, 31) 

Vvals = np.1linspace(0.5, 3;,9, 33) 

xgrid, ygrid = np.meshgrid(x, y) 





xy = np.c_[xgrid.ravel(), ygrid.ravel()] 

plt.pcolor (x_vals, y_vals, tree.query (xy) [1] .reshape(33, 31)) 
plt.plot (Boints[:,0],; points[:;1], 'ko') 

plt.show!() 


5. 最 优化 (scipy.optimize) 


最 优化 是 查找 带 一 个 或 多 个 变量 的 对 象 函 数 在 多 个 预先 定义 变量 约束 的 条 件 下 的 最 佳 方 案 
的 过 程 。 对 象 函 数 被 当 作 代价 函数 以 最 小 化 ,或 者 被 当 作 利用 函数 或 利益 函数 以 最 大 化 。 优 化 问 
题 有 几 点 重要 的 事项 ， 例 如 优化 问题 的 维度 和 优化 的 类 型 。 在 解决 优化 问题 之 前 ,最 好 先 了 解 这 
些 事项 然后 再 开始 着 手 解决 问题 。 对 于 维度 的 问题 , 我 们 指 的 标量 变量 的 数量 是 用 于 寻找 最 优 值 
的 ,变量 的 数量 可 以 是 一 个 或 多 个 。 这 个 变量 的 数量 也 会 影响 最 优 解 的 可 扩展 性 。 变 量 的 数量 越 
多 ,求解 速度 越 慢 。 而 且 优化 类 型 也 会 影响 解 的 设计 。 


另 一 点 需要 考虑 到 的 是 该 问题 是 否 是 一 个 约束 问题 。 所 谓 约 束 问题 , 所 指 的 是 最 终 解 必须 满 
足 一 些 预定 的 约束 条 件 。 例 如 ， 下 面 是 一 个 通用 约束 最 小 化 优化 问题 的 程序 : 



































oT 
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目标 函数 : 最 小 化 f(x) 
约束 条 件 : gi (x)= ai for i= 1 .... n 
Hj (KS= Db) 0K je 4 m 


最 优 解 必须 满足 这 些 约束 条 件 。 问题 的 解 取决 于 目标 函数 、 约束 条 件 和 变量 间 的 关系 。 此 外 ， 
模型 的 大 小 也 会 影响 最 优 解 。 模 型 的 大 小 通过 变量 的 数量 和 约束 条 件 的 数量 来 确定 。 通常 模型 的 
大 小 会 有 一 个 上 限 , 该 上 限 是 优化 求解 软件 或 应 用 强制 限定 的 。 这 个 上 限 的 引入 主要 是 由 较 高 的 
存储 需求 、 问 题 的 处 理 需求 和 数值 稳定 性 决定 的 。 这 可 能 就 会 导致 我 们 最 终 找 不 到 最 优 解 ， 或 者 
求解 的 过 程 非常 耗 时 ， 以 致 会 让 人 觉得 这 个 解 没有 收敛 。 


另外 , 优化 问题 可 能 是 凸 或 非 凸 的 问题 。 如 果 是 一 个 凸 问题 ,那么 相对 来 说 容易 求解 ， 因 为 
它 会 有 一 个 全 局 最 小 或 最 大 值 ， 并 且 不 存在 局 部 最 小 或 最 大 值 。 


我 们 来 详细 讨论 凸 度 ( convexity ) 的 概念 。 凸 优化 是 在 凸 集合 中 最 小 化 convex 函 数 的 过 程 。 
在 某 个 区 间 的 convex 函 数 (该 函数 处 理 实数 值 ) 被 称 作 convex 函 数 ， 条 件 是 图 中 任意 两 点 间 的 
线段 在 图 中 或 在 图 之 上 。 两 个 常用 的 convex 函 数 是 指数 函数 (flx)=e* ) 和 二 次 函数 (fx)=x? )。 
同 也 数 和 非 凸 函数 的 一 些 例子 如 下 图 所 示 。 



































































































































凸 集 合 是 指 一 个 区 域 , 该 区 域 中 如 果 我 们 用 线段 连接 其 中 的 两 点 , 那么 线段 上 的 所 有 点 都 应 
该 落 在 该 区 域 中 。 下 图 演示 了 凸 集合 和 非 凸 集合 的 区 别 。 


scipy.optimize 包 提供 了 标量 以 及 多 维 函 数 最 小 化 、 曲 线 拟 合 和 根 求解 的 最 有 用 的 函数 。 来 看 
看 如 何 用 这 些 函 数 。 

















5.2 SciPy 的 介绍 83 


























下 面 的 程序 展示 了 Broyden-Fletcher-Goldfarb-Shanno ( BFGS ) 算法 的 运用 。 这 个 算法 用 目标 
函数 的 梯度 来 快速 收敛 求解 。 这 个 程序 首先 定义 了 一 个 叫 rosen_derivative 的 函数 来 计算 
rosenbrock 限 数 的 梯度 : 


import numpy as np 
from scipy.optimize import minimize 
def rosenbrock (x): 
et un Sim(L00. 0 (RTL EL .00 CE- 2..0) 





XO Warraythl 0 QB TL ) 


def rosen derivative (x): 
Xl =X[L:=1] 
LL | 
el sD ‘Eve 
derivative = np.zeros_like (x) 


derivative[1:-1] = 200*(xl-xl_ ml**2) - 400*(xl_pl - xl**2)*xl] -AN 
2* {T=%1) 

derivativel0) = -400*x[0]* (KIL] W027) 7 ZE (LRL0]) 

derivative[-1] = 200*(x[-1]-x[-2]**2) 


return derivative 


res = minimize (rosenbrock, x0, method='BFGS', jac=rosen derivative, 
options={'disp': True}) 


下 面 的 程序 首先 计算 了 Rosenbrock 函 数 的 海 森 和 矩阵， 然后 用 牛顿 共 斩 梯 度 法 求 函 数 最 小 值 ; 





import numpy as np 
from scipy.optimize import minimize 


def rosenbrock (x): 
Pet sium( L000 (TL EL O00 (E00) 


XU Srray eblsa Nels. dB. Ts 


def rosen derivative (x): 
| 
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1 2] 
总 2 人 0 
derivative = np.zeros_like (x) 


derivative[1:-1] = 200*(xl-x1l_ml**2) - 400*(xl_ pl - xl**2)*xl] - \ 
2*(1=X1) 

derivative[0] = -400*x[0]*(x[1]-x[0]**2) - 2*(1-x[0]) 

derivative[-1] = 200*(x[-1]-x[-2]**2) 


return derivative 





def rosen hessian (x): 
x Val = np asarray (x 


hess = np.diag(-400*x_val[:-1],1) - np.diag (400*x_val[:-1],-1) 
diagonal = np.zeros_like(x_val) 

diagonal[0] = 1200*x_ val[0]**2-400*x_val[1]+2 

diagonal[-1] = 200 

diagoeonalll:o1l) =202.F 1200*x val[ll:=1]**2 = “400*X val[l2::] 


hess = hess + np.diag (diagonal) 
return hess 


result = minimize (rosenbrock, x0, method='Newton-CG', jac=rosen_ 
derivative, hess=rosen hessian, options={'xtol': le-8, 'disp': True}) 
print result.x 


minimize 国 数 也 有 一 个 对 多 个 约束 条 件 最 小 化 算法 的 接口 。 下 面 的 程序 用 到 Sequential Least 
Square Programming optimization ( SLSQP ) 算法 。 这 个 被 最 小 化 的 函数 定义 为 func， 它 的 导数 被 
定义 为 func_dqeriv， 约 束 条 件 在 cons 变 量 中 定义 : 








import numpy as np 
from scipy.optimize import minimize 
def func(x, sign=1.0): 
return sign* (2*x[0] *x[1] 4 2*X[0] = XL[0]**2 = 2*X[1]**2) 


def func deriv(x, sign=1.0): 
dfdx0 = sign*(-2*x[0] + 2*x[1] + 2) 
dfdxl = sign*(2*x[0] - 4*x[1]) 
return np.array ([ dfdx0, dfdxl1 |]) 


cons = ({'type': 'eq', 
"fun Lambda XO nparray (lx LO **3, = XLLT]]); 





"Jac's lanmbda xX: mp. array (lS .0% (xLOl**2 0) 2 11301) 3}; 
{'type': 'ineq', 
"fun" lanbda. Xu nearray [ 文 [本 :=* 1]): 


了 ac: lambda x: np.array ([0.0, 1.0])}) 





res = minimize(func, [-1.0,1.0], args=(-1.0,), jac=func_ deriyvy, 
method='SLSQOP', options={'disp': True}) 
print (res .x) 


res = minimize(func, [-1.0,1.0], args=(-1.0,), jac=func_ 
deriv,constraints=cons, method='SLSQP', options={'disp': True}) 
print (res .x) 
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下 面 的 程序 展示 了 寻找 全 局 最 小 和 局 部 最 小 的 方法 。 首 先 ， 它 定义 了 一 个 函数 并 将 其 画 出 。 
这 个 函数 在 -1.3 全 局 最 小 ,在 3 .8 局 部 最 小 。BFGF 算 法 用 于 寻找 局 部 最 小 。 这 个 程序 用 BFGF 
算法 寻找 全 局 最 小 。 但 是 随 着 网 格 大 小 的 增加 ( 待 检查 值 的 范围 )， BFGF 算 法 会 变 慢 。 所 以 对 于 
标量 函数 最 好 用 Brent 算 法 。 下 面 的 程序 还 用 到 了 fminbound 函 数 来 寻找 0 至 10 区 间 的 局 部 最 小 : 
import numpy as np 


import matplotlib.pyplot as plt 
from scipy import optimize 




















def f(x): 
return x**2 + 10*np.sin (x) 


x = np.arange(-10,10,0.1) 
plt.plot (x, f(x)) 
plt.show!() 


optimize.fmin pfgs(f, 0) 
TELA SE (F100 LO0% OL) 
optimize.brute(f, (griqd,)) 
optimize.brent (f) 
optimize.fminbound(f, 0, 10) 


下 面 的 程序 展示 了 约束 最 优化 的 应 用 : 


import numpy as np 











from scipy import optimize 
def £(x): 
return np.sqrt ((x[0] - 2)**2 + (x[1] - 3)**2) 


def constraint (x): 
return np.atleast_1d(2.5 - np.suml(np.abs (x))) 


), iegqcons=[constraint, ]) 
]), cons=constraint) 





optimize.fmin slsqp(f, np.array ([0, 2] 
optimize.fmin cobyla(f, np.array ([3, 4 


有 多 种 方法 可 以 求解 多 项 式 的 根 ， 下 面 三 个 程序 分 别 用 到 了 二 分 法 、 和 牛顿- 拉 韭 森 法 和 根 函 
数 。 下 面 的 程序 用 二 分 法 求解 polynomial_func 国 数 中 定义 的 多 项 式 的 根 : 


import scipy.optimize as optimize 
import numpy as np 


def polynomial_func (x): 
return Hp Cost 


print (optimize.bisect (polynomial_func, 1, 5)) 
下 面 的 程序 用 牛顿 - 拉 韭 森 法 求解 多 项 式 的 根 : 


import scipy.optimize 








from scipy import optimize 


def polynomial_func (xvalue): 
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yvalue = xvalue + 2*scipy.cos (xvalue) 
return yvalue 


scipy.optimize.newton(polynomial_func, 1) 


在 数学 上 , 拉 格 朗 日 乘 子 法 被 用 于 寻找 函数 在 等 量 约束 的 条 件 下 的 局 部 最 小 和 局 部 最 大 。 下 











面 的 程序 用 fsolve 函 数 计算 了 拉 格 六 日 乘 子 : 


import numpy as np 
from scipy.optimize import fsolve 
def func orig(data): 
xval = datal[l0] 
yval = datal[ll1] 
Multiplier = datal[2] 
return xval + yval + Multiplier * (xval**2 + yval**2 - 1) 


def deriv_func orig(data): 
dLambda = np.zeros (len(data)) 
step_size = le-3 # 有 限 微分 中 使 用 的 步 长 
for i in range(lenl(data)): 
ddata = np.zeros (len(data)) 
ddata[i] = step_size 
dLambda[i] = (func_orig(data+ddata)-func_ orig(data-ddata))/\ 
(2*step_size); 
return dLambda 


datal = fsolve(deriv_func orig, [1, 1, 0]) 
print datal, func_orig(datal) 


data2 Efsolve(deriv funo .origy [=1; =1;. 0]) 
print data2, func_orig(data2) 


6. 插值 (scipy.interpolate) 
插值 是 在 给 定 的 已 知 的 离散 值 集合 范围 内 寻找 新 数据 点 的 方法 。interpolate 子 包 包 含 插值 运 











Whl 


算 的 各 种 方法 。 它 支持 用 spline 也 数 、univariate 也 数 和 multivariate 也 数 进行 一 维和 多 维 


a 





看 值 ， 拉 格 度 日 和 泰勒 多 项 式 插值 。 对 于 FITPACK 和 DFITPACK 消 数 ， 它 还 有 封装 类 。 我 们 来 看 





上 面 提 到 的 部 分 方法 的 示例 程序 。 








这 个 程序 展示 了 用 线性 和 立方 插值 进行 的 一 维 插值 ， 并 且 将 插值 结果 画图 进行 比较 : 


import numpy as np 
from scipy.interpolate import interpld 

x_val = np.linspace(0, 20, 10) 

_val = np.cos(-x**2/8.0) 

f = interpld(x_val, y_val) 

f2 = interpld(x_val, y_val, kind='cubic') 

xnew = np.linspace(0, 20, 25) 

import matplotlib.pyplot as plt 

plt.plot (x,y, '0',xnew,f (xnew),'-', xnew, f2 (xnew)，'-- ') 
plt.legend(['data', 'linear', 'cubic'], loc='best') 
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plt.show!() 


下 面 的 程序 展示 了 用 gridgata 函 数 对 超过 150 个 点 的 多 元 数据 进行 插值 。 点 的 个 数 可 以 调整 
为 合适 的 值 。 这 个 程序 用 pyplot 在 一 个 图 像 中 生成 四 个 子 图 : 


import numpy as np 
import matplotlib.pyplot as plt 
from scipy.interpolate import griddata 





def func_user(x, y): 
return x*(1-x)*np.cos (4*np.pi*x) * np.sin(4*np.pi*y**2)**2 


Se "YE BoELd [OLELO0T.; 0THE2005] 


points = np.random.rand(150, 2) 

DOlINnt eb 0d), -POLNtS: ;Bj 

points, values, (x, y), method='nearest') 
points, values, (x, y), method='linear') 
points, values, (x, y), method='cubic') 


values = func user 
grid_z0 = griddata 
grid_ zl1 = griddata 
grid_z2 = griddata 





EE axarr = Pit ,SUDpLotst2, 2 

axarr[0, 0] .imshow(func(x, y).T, extent=(0,1,0,1), origin='lower') 
xaEr [0 0] PIOC(DGIntsL:r0l; POLntettt) 7. “kKY;: “mssr) 

axarr[0, 0] .set_title('Original') 

axarr[0, 1] .imshow(grid_ z0.T, extent=(0,1,0,1), origin='lower') 


axarr[0, 1].set_title('Nearest') 























axarr[1, 0] .imshow(grid_ zl1.T, extent=(0,1,0,1), origin='lower') 
axarr[1, 0] .set_title('Linear') 

axarr[1, 1].imshow(grid z2.T, extent=(0,1,0,1), origin='lower') 
axarr[1, 1].set_title('Cubic') 

plt.show!() 


7. 线性 代数 (scipy.linalg) 
SciPy 线 性 代数 将 变量 当 作 一 个 对 象 ， 这 个 对 象 可 以 转换 成 一 个 二 维 数组 并 返回 一 个 二 维 数 


组 。 与 numpy .1inalg 相 比 ，scipy .1inalg 函 数 有 更 高 级 的 特征 。 
下 面 的 程序 计算 了 矩阵 (二 维 数组 ) 的 道 。 它 也 用 到 T ( 转 置 的 符号 ) 和 执行 数组 的 乘法 : 


import numpy as np 

from scipy import linalg 

A = np.array([l[253], 14,51.]) 
linalg.inyv (A) 

B = np.array ([[3,8]]) 

A*B 

A.dot (B.T) 


这 个 小 程序 计算 了 矩阵 的 逆 和 行列 式 的 值 : 





T 
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import numpy as np 

from scipy import linalg 

A = np.array ([[2,3],[4,5]]) 
linalg.inyv (A) 

linalg.det (A) 


下 面 的 程序 演示 了 通过 逆 矩 阵 和 求解 器 快速 求解 线性 方程 组 的 方法 : 








import numpy as np 
from scipy import linalg 
A = np.array ([[2,3],14,5]]) 





B = np.array([[5],[6]]) 

linalg.inv(A) .dot (B) 

np.linalg.solve (A,B) 

下 面 的 程序 求解 一 组 线性 标量 系数 并 用 模型 进行 数据 拟 合 。 这 个 程序 用 到 1inalg .1stsa 求 
人 题 。1stsa 方 法 被 用 于 寻找 线性 矩阵 方程 的 最 小 平方 解 。 这 个 方法 是 针对 给 定数 据 


点 寻 





寻找 最 佳 拟 合 线 的 工具 。 它 使 用 线性 代数 和 简单 的 积分 : 


import numpy as np 

from scipy import linalg 

import matplotlib.pyplot as plt 
Goeft 1, .CO8ft 2 E50 20 


re 
0 


Xx 
y = coeff_ 
2 EY 0 


再 DB 


[1:11] # 也 可 以 用 np.arang(1，11) 


1l*np.exp(-x) + coeff 2*x 
05 * np.max(y) * np.random.randn (len(y)) 


[np .exp (-X) [:, np.newaxis], x[:, np.newaxis]] 


coeff, resid, rank, sigma = linalg.lstsq(A, zi) 


WT 
coeff[0]*np.exp(-x2) + coeff[1]*x2 


y2 


[Os TL30:7100] 


站 


Dltsaxis( 
各 1 人 ti 
plt.show!( 


QFLy350;539]) 


[ 
('Data fitting with linalg.lstsq') 
) 


下 面 的 程序 展示 了 用 1inag .svd 和 1inag .diagsvd 函 数 进 行 奇 异 值 分 解 的 方法 : 


import numpy as np 
from scipy import linalg 
A = np.array([[5,4,2], [4,8,7]]) 


EOW” = 
GOL 3 
US VE 二 


linalg.svd(A) 


Sig = linalg.diagsvd(s,row,col) 


Uo VI 


print U 
brinmt to 
print Vvh 


VP 
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eigsh (random_matrix，3，which='SM')。 在 这 个 例子 中 系统 返回 了 一 个 没有 收敛 的 错误 。 


8. 用 ARPACK 解 决 稀 疏 特征 值 问题 
下 面 这 个 程序 计算 了 标准 特征 值 分 解 和 对 应 的 特征 向 量 : 


import numpy as np 

from scipy.linalg import eigh 

from scipy.sparse.linalg import eigsh 
# 限制 小 数 的 位 数 


np.set_printoptions (suppress=True) 





np.random.seed(0 

random matrix = np.random.random((75,75)) - 0.5 
random matrix = np.dot (random matrix, random matrix.T) 
# 计算 特征 值 与 特征 向 量 


eigenvalues_all, eigenvectors_all = eigh (random matrix) 


eigenvalues_large, eigenvectors_large = eigsh(random matrix, 3, 
which='LM') 

print eigenvalues_all[-3:] 

print eigenvalues_large 

print np.dot (eigenvectors_large.T, eigenvectors _ all[:,-3:]) 


如 果 我 们 要 找 最 小 的 特征 值 ， 可 以 用 eigenvalues_small, eigenvectors_small = 




















有 几 种 办 法 可 以 解决 这 个 问题 。 第 一 个 办 法 是 通过 将 tol=1E-2 传 人 eigsh 函 数 增 加 容 限 值 : 
人 small, eigenvectors_small = eigsh (random matrix, 3, which='SM', 


tol=1E-2)。 这 可 以 解决 问题 ,但 是 会 损失 精度 。 











另 一 个 解决 办 法 是 增加 最 大 的 迭代 次 数 至 5000， 通 过 将 maxiter=5000 传 人 eigsh 函 数 来 实 








现 : eigenvalues_small, eigenvectors_small = eigsh (random matrix, 3, which='SM', 


maxitezr=5000) 。 但 是 更 多 的 迭代 次 数 意味 着 更 长 的 运行 时 间 。 还 有 一 个 更 好 的 办 法 来 解决 快 


速 























和 精度 问题 , 那 就 是 用 shift-inter 模 式 ,用 到 sioma=0 或 2 和 which='LM' 人 参数 :eigenvalues 


small, eigenvectors_small = eigsh(random matrix, 3, sigma=0, which='LM')。 


9. 统计 学 (scipy.stats) 
SciPy 有 很 多 统计 函数 可 以 用 于 数组 的 运算 ,还 有 用 于 掩 码 数 组 的 特殊 版 本 。 下 面 的 各 个 程 


序 展示 了 部 分 连续 和 离散 概率 分 布 函数 的 应 用 。 

下 面 的 程序 用 到 了 离散 二 项 式 随机 变量 并 画 出 了 它 的 该 概率 质量 函数 。 这 是 一 个 离散 二 项 分 
布 的 概率 质量 函数 

binom.pmf (k) = choose(n，K) * p**k * (1-p)**(n-k) 


在 之 前 的 代码 中 ，Kk 的 取 值 范围 是 (0,1…,n)， 其 中 n 和 p 是 形状 参数 : 


import numpy as np 
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from scipy.stats import binom 
import matplotlib.pyplot as plt 


,Od 
mean, variance, skewness, kurtosis = binom.stats(n, p, moments='mvsk') 
x_var = np.arange (binom.ppf (0.01, n, p),binom.ppf (0.99, n, p)) 





plt.plot (x_var, binom.pmf (x_var, n, p), 'ro', ms=5, label='PMF of \ 
binomial ') 

plt.vlines (x_var, 0, binom.pmf (x_var, n, p), colors='r', lw=3, 
alpha=0.5) 

plt.show!() 

下 面 的 程序 用 到 了 几何 离散 随机 变量 并 画 出 了 概率 质量 函数 : 

geom.pmf (K) = (1-p)**(k-1)*p 








这 里 k 宇 1，p 是 形状 参数 :; 


import numpy as np 
from scipy.stats import geom 
import matplotlib.pyplot as plt 


0 

mean, variance, skewness, kurtosis = geom.stats(p, moments='mvsk') 
x_var = np.arange (geom.ppf (0.01, p),geom.ppf (0.99, p)) 

plt.plot (x_var, geom.pmf (x_var, p), 'go', ms=5, label='PMF of\ 


geomatric') 
plt.vlines (x_var, 0, geom.pmf (x_var, p), colors='g', lw=3, alpha=0.5) 


plt.show!() 
下 面 的 程序 展示 了 广义 帕 累 托 连续 随机 变量 的 计算 并 画 出 其 概率 密度 函数 : 
genpareto.pdf (x, c) = (1 + Cc * xXx)**(-1] - 1/c) 


# 如 果 c 宇 0， 则 文 宇 0; 如 果 c<0， 则 0 科 x 夺 -1/c 

import numpy as np 

from scipy.stats import genpareto 

import matplotlib.pyplot as plt 

GS" Ol 

mean, variance, skewness, kurtosis = genpareto.statsl(c, 
moments='mvsk') 

x_val = np.linspace (genpareto.ppf (0.01, c),genpareto.ppf (0.99, c), 








100) 
plt.plot (x_val, genpareto.pdf (x_val, c),'b-', lw=3, alpha=0.6, 
label='PDF of Generic Pareto') 
plt.show!() 
下 面 的 程序 展示 了 广义 伽 马 连 续 型 随机 变量 的 计算 并 画 出 其 概率 密度 函数 : 
gengamma .pdf (x, a, cc) = abs(c) * Xxx(Cxa-1) * exp(-x**c) / gamma (a) 


这 里 , rx>0, a>0, c!=0。 其 中 ，a 和 ec 为 形状 参数 : 
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import numpy as np 

from scipy.stats import gengamma 

import matplotlib.pyplot as plt 

总 1623854294 .332119309162792 

mean, variance, skewness, kurtosis = gengamma.stats(a，cC， 
moments='mvsk') 

x_var = np.linspace(gengamma.ppf (0.01, a, c),gengamma.ppf (0.99, a, c), 


100) 

plt.plot (x_var, gengamma.pdf (x_var, a, Cc),'b-', lw=3, alpha=0.6, 
label='PDF of generic Gamma') 

plt.show!() 





下 面 的 程序 展示 了 多 元 正 态 随机 变量 的 计算 并 画 出 其 概率 密度 函数 。 为 简便 起 见 ,省 略 其 概 
import numpy as np 

import matplotlib.pyplot as plt 

from scipy.stats import multivariate_ normal 

x_var = np.linspace(5, 25, 20, endpoint=False) 

y_var = multivariate normal.pdf (x_var, mean=10, cov=2.5) 


plt .Blot (x vars VVvar) 
plt.show!() 


也 可 以 停止 这 些 概率 分 布 以 展示 其 概率 分 布 /质量 函数 。 
10. 多 维 图 像 处 理 (scipy.ndimage) 


通常 图 像 处 理 和 图 像 分 析 可 以 看 作对 二 维 数组 的 操作 。 这 个 包 提供 了 图 像 处 理 和 图 像 分 析 的 
各 种 函数 。 下 面 的 代码 处 理 了 图 像 Lena。 首 先 ， 这 个 程序 在 该 图 像 中 加 入 一 些 噪声 ， 然 后 用 一 些 
滤波 器 来 去 除 该 噪声 。 它 还 展示 了 有 了 噪声 的 图 像 以 及 分 别 用 高 斯 滤波 器 、 中 值 滤波 器 和 
signal.wiener 滤 波 器 的 滤波 效果 : 




















import numpy as np 

from scipy import signal 

from scipy import misc 

from scipy import ndimage 
import matplotlib.pyplot as plt 


lena = misc.lenal() 

noisy_lena = np.copy (lena) .astype (np.float) 

noisy_lena += lena.std()*0.5*np.random.standard normal (lena.shape) 
fy -aXaArr mIt euDBlots(2, ' 2) 

axarr[0, 0] .imshow(noisy_lena, cmap=plt.cm.gray) 

axarr[0; 0] axis ("off") 

axarr[0, 0] .set_title('Noissy Lena Image') 

blurred_lena = ndimage.gaussian filter(noisy_lena, sigma=3) 
axarr[0, 1].imshow(blurred_ lena, cmap=plt.cm.gray) 

aKaEE[O; Laxlie( MoffT) 

axarr[0, 1].set_title('Blurred Lena') 

median_lena = ndimage.median filter(blurred lena, size=5) 
axarr[1, 0] .imshow(median lena, cmap=plt.cm.gray) 
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dxarr[l;. 0] vaxis( off’) 

axarr[1, 0] .set_title('Median Filter Lena') 
wiener_lena = signal.wiener (blurred lena, (5,5)) 
axarr[1, 1] .imshow(wiener_lena, cmap=plt.cm.gray) 
axarr[l1l, 1] .axis('off') 

axarr[1, 1].set_ title('Wiener Filter Lena') 
plt.show!() 


以 下 截图 是 上 面 程序 的 输出 。 





分 |@|O| 十 | 到 轿 国 | 














11. 聚 类 


聚 类 是 将 一 个 大 的 对 象 集合 分 成 多 个 组 的 过 程 。 它 用 到 了 一 些 参数 来 判定 一 个 对 象 和 该 组 
(也 称 类 ) 内 的 对 象 更 相似 ， 而 和 其 他 类 或 组 中 的 对 象 不 相似 。 














四 个 类 














对 象 分 成 四 个 类 
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SciPy 聚 类 包 包 括 两 个 模块 : 向 量 量化 (Vector Quantization ，VQ ) 和 层次 聚 类 。VQ 模 块 文 
持 K-means 聚 类 和 向 量 量化 。 层 次 聚 类 模块 支持 分 层 聚 类 和 聚合 聚 类 。 


来 简单 地 了 解 这 些 算法 。 



































口 向 量 量化 : VQ 是 使 用 户 通过 原型 向 量 的 分 布 来 构建 概率 密度 函数 模型 的 信号 处 理 技术 。 
它 通 过 将 一 个 大 的 向 量 或 点 的 集合 分 成 多 个 组 来 完成 建 模 ， 这 些 组 在 其 近邻 包括 几乎 相 
同 数量 的 点 。 每 个 组 都 用 中 心 点 来 表示 。 

口 K-means: K-means 是 信号 处 理 中 的 向 量 量化 技术 , 广泛 用 于 聚 类 分 析 。 它 按照 与 聚 类 中 

心 距离 最 近 的 方式 ， 把 n 个 观察 值 划分 为 £ 个 聚 类 。 

口 层次 聚 类 : 这 种 聚 类 方法 是 利用 观察 值 建立 一 组 聚 类 的 层级 。 层 次 聚 类 技术 大 致 可 以 分 



































为 以 下 两 种 类 型 。 

a 分 离 聚 类 : 这 是 一 个 生成 层次 聚 类 的 自 上 而 下 的 方法 。 它 开始 于 最 顶层 的 类 ， 随 着 向 
下 移动 不 断 分 裂 。 

sm 聚合 聚 类 : 这 是 一 个 自 下 而 上 的 方法 。 每 个 观察 值 是 一 个 类 ， 该 方法 在 向 上 移动 的 过 
旦 中 将 类 不 断 进 行 配对 。 








通常 层次 聚 类 的 结果 最 终 可 以 用 树 状 图 表示 ， 如 下 图 所 示 。 






































层次 聚 类 




















下 面 的 程序 展示 了 K-means 聚 类 和 向 量 量化 的 例子 : 


from Scipy.cluster.vd import kmeans, vd 
from numpy.random import rand 

from numpy import vstack,array 

from pylab import plot,show 


data_set = vstack((rand(200,2) + array([.5,.5]),rand(200,2))) 


# K-means 有 聚 类 分 成 两 个 类 
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centroids_of_clusters,_ = kmeans (data_set,2) 
index,_ = vgaq(data_ set,centroids of_ clusters) 


plot (data_set [index==0,0],data_set [index==0,1],'ob', 
data_set[index==1,0],data_set [index==1,1],'or') 
plot (centroids_of_clusters[:,0],centroids_of_clusters[:,1],'sg',markersize=8) 


show () 


# 同样 的 数据 分 成 三 个 类 
centroids_of_clusters,_ = kmeans (data_set,3) 
index,_ = vgaq(data_set,centroids_ of_ clusters) 


plot (data_set [index==0,0],data_set[index==0,1],'ob', 
data_set[index==1,0],data_set [index==1,1],'or', 
data_set[index==2,0],data_set [index==2,1],'0g') # 第 三 个 类 的 点 

plot (centroids_of_clusters[:,0],centroids_of_clusters[:,1],'sm', markersize=8) 

Show() 


层次 聚 类 的 模块 有 很 多 函数 , 这 些 函数 可 以 包括 许多 聚 类 方法 , 例如 将 层次 聚 类 切 分 为 局 平 
肾 类 的 函数 、 肾 合 肾 类 函数 、 聚 类 可 视 化 函数 、 数 据 结构 ， 以 及 将 层次 聚 类 结果 表示 为 树 状 图 的 
函数 、 计 算 聚 类 层次 的 函数 、 检 查 链接 和 不 规则 指标 有 效 性 的 推断 函数 ， 等 等 。 下 面 的 程序 用 
linkage 函 数 (聚合 聚 类 ) 和 dendqrogram 函 数 (层次 聚 类 ) 画 一 个 示例 数据 的 树 状 图 : 








import numpy 

from numpy.random import rand 

from matplotlib.pyplot import show 

from scipy.spatial.distance import pdist 
import scipy.cluster.hierarchy as sch 


x = rand(8,80) 
葡 下 人 ss 生计 三 :之 


y = pdist (x) 

z = sch.linkage(y) 
sch.dendrogram(z) 
show () 


输出 结果 如 下 所 示 。 
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6 7 8 9 10 
12. 曲线 拟 合 


构造 一 个 与 数据 序列 最 好 地 拟 合 的 数学 函数 或 曲线 的 过 程 即 曲线 拟 合 。 通常 , 这 个 曲线 拟 合 
必须 满足 一 些 约束 条 件 。 曲 线 拟 合 的 输出 可 以 用 于 数据 可 视 化 , 没有 数据 时 也 可 以 通过 函数 预测 
结果 。 曲 线 拟 合 也 可 以 用 来 观察 多 个 变量 之 间 的 关系 。 我 们 可 以 用 不 同类 型 的 曲线 做 曲线 拟 合 ， 
如 直线 、 多 项 式 、 圆 锥 曲线 、 三 角 函 数 、 圆 、 椭 圆 等 。 


下 面 的 程序 首先 生成 了 一 些 带 噪声 的 随机 数据 ,然后 它 定义 了 一 个 1ine_func 函 数 来 表示 该 
模型 并 做 曲线 拟 合 。 接 下 来 求解 实际 参数 a 和 b。 最 后 画 出 误差 : 












































import numpy as np 
import matplotlib.pyplot as plt 
from scipy.optimize import curve_fit 


xdata = np.random.uniform(0., 50., 80) 
ydata = 3. * xdata + 2. + np.random.normal (0., 5., 80) 


plt.plot (xdata, ydata, '.') 


def line_func(x, a, b): 
return a *x+b 


opt_param, cov_estimated = curve_ fit(line func, xdata, ydata) 


errors = np.repeat (5., 80) 
plt.errorbar (xdata, ydata, yerr=errors, fmt=None) 





opt_param, cov_estimated = curve_ fit(line func, xdata, ydata, 
sigma=errors) 


print "a =", opt_param[0], "+/-", cov_estimated[0,0]**0.5 
print "b =", opt_param[1], "+/-", Cov_estimated[1,1]**0.5 


plt.errorbar (xdata, ydata, yerr=errors, fmt=None) 
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xnew = np.linspace(0., 50., 80) 


plt.plot (xnew, line_ func(xnew, opt_param[0], opt_param[1]), 'r-') 
plt.errorbar (xdata, ydata, yerr=errors, fmt=None) 

plt.plot (xnew, line_ func(xnew, *opt_param), 'r-') 

plt.show() 





下 面 的 程序 用 cos 三 角 函 数 做 曲线 拟 合 : 


import numpy as np 
from scipy import optimize 
import pylab as pl 


np.random.seed(0) 


def func(x, omega, p): 
return np.cos(omega * x + p) 


x = np.linspace(0, 10, 100) 

y = f(x, 2.5, 3) + .1l*np.random.normal (size=100) 
params, params_cov = optimize.curve_ fit(f, x, y) 
t = np.linspace(0, 10, 500) 

pl.figure(1) 


和 人 

Slaplotis. YW Per) 

Bl Blobtky “Lt “parans}y "rs" 
pl.show() 


13. 文件 输入 /输出 (scipy.io) 
SciPy 用 模块 、 类 和 函数 提供 了 一 系列 文件 格式 的 读 和 写 的 支持 ， 这 些 文件 包括 : 


口 Matlab 文 件 

口 ALD 文 件 

口 Matrix Market 文 件 

口 无 格式 的 FORTRAN 文 件 
口 WAV 声 音 文件 

口 ARFF 文 件 

口 NetCDF 文 件 


下 面 的 程序 执行 了 NetCDF 文 件 的 读 和 写 操作 : 





from scipy.io import netcdf 


# 创建 文件 

f = netcdf.netcdf_file('TestFile.nc', 'w') 
f.history = 'Test netCDF File Creation' 
f.createDimension('age', 12) 

age = f.createVariable('age', 'i', ('age',)) 
age.units = 'Age of persons in Years' 

age[:] = np.arange (12) 


f.close!() 
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# 读 取 文 件 


fe netedf. .netedf flel( TestFiLle. ne Ve) 


print (f.history) 
age = f.variables 
print (age.units) 
print (age. shape) 
print (age[-1]) 
f.closel() 


["age’” | 


同样 , 我 们 可 以 对 其 他 类 型 的 文件 执行 读 和 写 操作 。 有 一 个 加 载 文件 的 子 模块 ,该 子 模 块 由 


WEKA 机 器 学 习 工 具 生 成 
个 可 能 包含 数值 、 字 符 上 





。WEKA 将 文件 存储 为 ARFF 格 式 ， 该 格式 为 Wi 








EKA 的 标准 格式 。ARFF 是 一 





和 数据 值 的 文本 文件 。 下面 的 程序 读 取 和 显示 了 test.arff 文 件 中 存储 的 数 


据 。 文 件 中 的 内 容 是 arelation foo; @attribute width numeric; eattribute height 


numeric; @attribut 
blue; 4.5,3.75,gre 





e color {red,green,blue,yellow,bla 
en; 3.0,4.00,red。 





下 面 的 程序 读 取 和 显示 了 该 文件 内 容 : 


from scipy.io imp 


filel = open('tes 
data, meta = arff 


print data 
print meta 


5.3 小 结 


Ot "EEE 


tarffr) 
.loadarff (filel) 


本 章 广泛 地 讨论 了 如 何 用 Python 的 NumPy 和 SciPy 包 做 数值 计算 。 我 们 通过 示例 程序 来 理解 
念 。 这 一 章 从 NumPy 的 基本 对 象 开始 讨论 ， 然 后 学 习 了 NumPy 的 高 级 功能 。 


Gk}? Cdatas 0325; 





这 一 章 还 讨论 了 SciPy 的 函数 和 模块 。 介 绍 了 SciPy 提 供 的 基础 函数 和 特殊 函数 ， 以 及 特殊 的 


模块 或 子 包 。 也 介绍 到 了 一 些 高 级 功能 ， 如 优化 、 捐 





计 、 空 间 算法 、 图 像 处 理 和 文件 的 输入 输出 。 


下 一 章 将 详尽 地 讨论 用 SymPy 做 符号 运算 或 CAS ， 特 别 是 学 习 多 项 式 、 微 积分 、 求 解 方程 、 
离散 数学 、 几 何 和 物理 的 核心 功能 与 扩展 功能 。 





上 值 、 传 里 叶 变 换 、 信 号 人 处理 、 线 性 代数 、 统 





用 Python 做 符号 计算 








SymPy 包 括 许多 功能 ， 从 基本 的 符号 算术 到 多 项 式 、 微 积分 、 求 解 方程 、 离 散 数学 、 几 何 、 
统计 和 物理 。 它 主要 处 理 三 种 类 型 的 数据 : 整 型 数据 、 实 数 和 有 理 数 。 整 数 即 不 带 小 数 点 的 数字 ， 
而 实数 是 带 小 数 点 的 数字 。 有 理 数 包括 两 个 部 分 : 分 子 和 分 母 。 可 以 用 Ration 类 定义 有 理 数 ， 
该 类 需要 两 个 数字 。 在 这 一 章 中 ， 我 们 将 通过 示例 程序 来 理解 SymPy 的 概念 。 

这 一 章 将 学 习 以 下 主题 : 

口 用 SymPy 的 计算 机 代数 系统 

口 核心 功能 和 高 级 功能 

口 多 项 式 、 微 积分 和 求解 方程 

口 离散 数学 、 和 矩阵 、 几 何 、 画 图 、 物 理 和 统计 
口 打印 功能 


首先 讨论 SymPy 的 核心 功能 , 包括 基本 的 算术 、 扩 展 、 简 化 、 蔡 换 、 模 式 匹配 和 各 种 函数 ( 例 
如 指数 函数 、 对 数 函 数 、 方 程 的 根 、 三 角 函 数 、 双 曲线 函数 和 特殊 函数 )。 
























































6.1 符号 、 表 达 式 和 基本 运算 


在 SymPy 中 ， 在 任何 表达 式 中 使 用 符号 前 ,必须 先 定义 该 符号 。 定 义 符号 很 简单 。 只 需要 用 
Symbol 类 中 的 sympbol 函数 来 定义 一 个 符号 即 可 ， 下 面 的 程序 就 用 到 了 这 种 方式 。 我 们 可 以 用 
evalf() /Mn() 来 获得 任何 对 象 的 浮 点 近似 值 。 


下 面 的 程序 用 了 三 种 方法 来 生成 符号 。 对 于 只 生成 一 个 符号 的 ， 函 数 命 名 为 symbol; 对 于 
生成 多 个 符号 的 ， 函 数 命 名 为 symbols。 有 两 种 方法 可 以 生成 多 个 符号 : 第 一 种 是 将 用 空格 分 隔 
的 符号 名 称 传人 符号 函数 ; 第 二 种 方法 是 将 mo :5 传人 符号 函数 ， 生 成 一 个 如 m0，ml，m2，m3， 
m4 的 符号 序列 。 在 第 二 种 方法 中 ，m0 是 第 一 个 索引 值 ， 冒 号 后 的 5 表示 生成 五 个 这 样 的 变量 。 

通常 ， 两 个 整数 的 除 会 删除 小 数 点 后 面 的 部 分 。 为 了 避免 这 种 情况 ,下 面 程序 的 第 一 行 强 制 
了 两 个 整数 的 除 的 结果 为 浮 点 类 型 。 这 就 是 为 什么 程序 的 最 后 一 行将 3 .142857142857143 存 人 
y 中 。 如 果 和 忽略 程序 的 第 一 行 ， 那 么 y 的 值 是 3: 
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from __ future _ import division 
from sympy import * 


Ky YZ Ss BolLst" 
mo, ml, m2, m3, m4 
区 -二 "Yio" ) 
X1L + 500 

y=22/7 


下 面 的 程序 用 evalf () 和 n () 函数 将 任何 SymPy 对 象 的 数值 近似 转换 为 浮 点 值 。 默 认 的 精度 
是 小 数 点 后 15 位 ， 而 且 可 以 通过 调整 参数 改 成 任何 想 要 的 精度 ; 


from __ future_ import division 
from sympy import, sin, pi 


so | 
= symbols('m0:5') 




















x=sin(50) 


pi.evalf() 
pi.evalf (50) 





下 面 的 程序 展示 了 表达 式 的 概念 ， 以 及 用 collect、expand、factor、simplify 和 subs 
进行 的 各 种 操作 : 
from sympy import collect, expand, factor, simplify 


from sympy import Symbol, symbols 
from sympy import sin, cos 





了 


eXxpDLr 三 昌 本 关 灶 二 富生 六 灶 区 类 闫 炎 类 呈 寺 GO 名 (下 ) 二 日 二 类 并 类 二 全 
simplify (expr) 


factor (0 
expand ( (x-5) * (x+6) ) 


Collect (x**3 + a*x**2 + Db*x**2 + C*x + dd, x) 


expr = sin(x)*sin(x) + cos (x)*cos (x) 
expr 

expr.subs ({x:5, y:25} 

xpr. SUDS({X5, Y250}) :<n 0 


6.2 求解 方程 


solve 是 一 个 神奇 的 函数 。 它 可 以 求解 各 种 类 型 的 方程 。 这 个 函数 返回 方程 的 解 。 它 需要 两 
个 输入 参数 : 待 解 的 表达 式 和 变量 。 下 面 的 程序 用 这 个 函数 求解 了 各 种 方程 。 在 以 下 的 方程 中 ， 
假设 方程 等 式 右边 的 值 是 0: 
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from sympy import solve, sym 
a Dr Ye bols( ab 


SOLYE, {62 0 
solve(a*x**2 + b*x + C, XxX) 
substitute_solution = solvel( 
[ substitute_solution[0] .sub 
substitute_solution[1].s 


SOLve(t Ll2*x 于 = B35 XK ~2*y 
) 


bols 


Cxy') 


ee 
Sen 6 Ba 3 O30) 
UBS((t als Bs 3 "O30F) J 


+ 1], [x, y] 


为 了 求解 方程 组 , 我 们 有 另 一 种 形式 的 solve 函 数 。 它 将 一 系列 的 方程 作为 第 一 个 输入 参数 ， 
将 未 知 数列 表 作为 第 二 个 参数 ， 如 下 面 的 程序 所 示 : 





from sympy import solve, sym 


KY = BYTE 有人 
solve ([2*x + y - 4, 5S*x - 3 
solve ([2*X + 2*y ~- 1, 2*x 一 





bols 


ba 
4*y], [x, y]) 


6.3 有理数、 指数 和 对 数 函 数 


SymPy 有 很 多 函数 可 以 用 于 处 型 


EA 有理数 。 这 些 函 数 可 以 对 有 理 数 做 简化 、 扩 展 、 合 并 、 拆 分 





等 操作 。SymPy 还 支持 一 些 指数 和 对 数 操作 。 有 三 个 对 数 函 数 : 1og ( 用 于 计算 以 bp 为 底 的 对 数 )、 


ln (用 于 计算 以 欧 拉 常数 e 为 底 的 自 





然 对 数 ) 和 1og10 (用 于 以 10 为 底 的 对 数 )、1og 函 数 需要 两 








个 参数 : 变量 和 底 。 如 果 底 没有 被 指定 ,那么 这 个 函数 会 默认 以 自然 对 数 计算 该 变量 ， 也 就 是 等 
价 于 1n。 为 了 计算 两 个 有 理 数 的 加 法 ， 我们 用 together 函 数 。 类 似 地 ， 计 算 有 理 数 的 除法 ， 我 
们 用 到 apart 了 水 数 ， 如 下 面 的 程序 所 示 : 


from sympy import together., 
import mpmath 
lLet 
Xl1/x2 + Xx3/x4 

together (x1 /x2 + x3/x4) 


apart ( (2 和 + (1 
together(apart ((2*x**2+3*x+ 


(1) 
log(4).n() 
log(4,4).n() 
ln(4).n() 
mpmath.1o0g10 (4) 


6.4 多 项 式 








apart, symbols, exp, log, ln 


i 


4)/ (x+1))) 


SymPy 也 允许 我 们 定义 和 执行 多 项 式 的 各 种 操作 。 我们 还 可 以 求解 多 项 式 的 根 。 我们 已 经 介 
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绍 过 simplify、expand、factor 和 solve 痕 数 。 这 些 也 数 也 适用 于 多 项 式 。 为 了 检查 两 个 多 
项 式 是 否 相 等 ， 应 该 用 simplify 吨 数 : 


from sympy import * 




















天 Cp i VoLS: (pd RR,) 
(x+4)* (x+2) 

2 让 * 十 88 
= gq # 返回 False 

dq == 0 # 返回 False 
implify(p - q) == 0 


p 
p 
q 
p 
p 
S 


6.5 三 角 函 数 和 复数 


大 部 分 时 候 , 三 角 函 数 的 输入 是 弧度 值 , 反 三 角 函 数 返回 的 也 是 弧度 值 。 这 个 模块 也 提供 了 
从 度数 到 弧度 值 的 转换 和 从 弧度 值 到 度数 的 转换 。 除了 sin、cos 和 和 tan 这样 的 基本 三 角 函 数 , SymPy 
还 有 简化 和 扩展 的 三 角 函 数 。 


SymPy 还 支持 在 不 存在 实数 解 的 情况 下 的 复数 解 。 例 如 等 式 x**2+4=0, 这 个 方程 没有 实数 解 ， 
它 的 解 是 -2*7 或 12*7 ( 夸 示 -1 的 平方 根 )。 下 面 的 程序 展示 了 三 角 函 数 ， 并 且 用 复数 值 形 式 给 出 
了 这 个 方程 的 解 : 


from sympy import * 
XY = ybols( xy) 


expr = sin(x)*cos(y)+cos (x)*sin(y) 
expr_exp= exp (5*sin(x)**2+4*cos (x) **2) 


trigsimp (expr) 

trigsimp (expr_exp) 
expand_trig(sin(x+ty)) 
solve (Xxx2+4,X) # 结 果 是 复数 























6.6 ”线性 代数 


SymPy 线 性 代数 模块 是 男 外 一 个 非常 简单 的 模块 , 该 模块 中 的 函数 的 矩阵 操作 都 非常 简单 易 
学 。 它 包括 对 矩阵 的 各 种 操作 ， 例 如 快速 特殊 和 矩 阵 的 构建 、 特 征 值 、 特 征 向 量 、 转 置 、 行 列 式 的 
值 和 道 。 有 三 个 函数 可 以 快速 生成 特殊 和 矩阵， 分别 是 eye 、zeros 和 ones。eye 函 数 生成 一 个 实 
体 矩 阵 , 而 zeros 和 ones 生 成 的 矩阵 的 全 部 元 素 分 别 是 0 和 1。 如 果 需 要 的 话 , 我 们 可 以 删除 矩阵 
中 某 些 选中 的 行 和 列 。 基 本 算术 运算 ， 如 +、-、* 和 **， 也 可 以 用 于 矩阵: 


from sympy import * 
x = Motri( [E12 Dy WE] 
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A.col_del (3) 


A[0,1] # 显示 纶 阵 A 的 第 一 行 第 二 列 
A[0:2,0:3] # 左上 角 的 2x3 子 矩阵 


B: -Matrix (ld 2 3 
[D0 6 
[9 
A.row_join(B) 
B.col_ join(B) 
A + B 
A-B 
A *B 
A **2 
eye(3) # 单位 矩阵 (identity matrix) 
Zeros(3，3) # 3xXx3 全 0 矩阵 
ones(3，3) # 3x3 全 1 纶 阵 


A.transpose() # 等 价 于 A.T 

M’.. Matri( [Ly 27 3], 
[4 DG] 
jE 


M.det () 

默认 情况 下 , 矩阵 的 逆 是 用 高 斯 消 元 法 计算 得 出 的 , 也 可 以 指定 用 LU 分 解法 来 计算 。SymPy 
有 很 多 函数 可 以 用 来 计算 简化 的 行 阶梯 形 ( rref 函 数 ) 和 零 空 间 (nullspace 限 数 )。 如 果 4 是 
一 个 矩阵 ,那么 nullspace 就 是 所 有 向 量 v 的 集合 ， 满 足 4 呈 0。 还 可 以 对 矩阵 元 素 做 蔡 换 操作 。 
我 们 可 以 用 符号 实体 生成 一 个 矩阵 ， 然后 用 实际 的 值 和 其 世人 他 符号 来 做 蔡 换 。 还 可 以 做 一 些 特殊 的 
操作 ， 如 QR 因 式 分 解 、Gram-Schmidt 正 交 化 和 LU 分 解 : 









































from sympy import * 


A = Matrix( [[1,2], 
[3,4]] ) 

A.inv() 

A.inv()*A 

A*A.inv() 

A = Matrix( [LL | 


2 
A.eigenvals() # 等 价 于 solve( det (A-eye(2)*x), xX) 
A.eigenvects 


A.rref() 


[ 
[- 
) 
() 


ba 


.nullspace() 


x = Symbol('x') 
M = eye(3) *x 
M.subs (x, 4) 

y = Symbol('y') 
M.subs (x, y) 


区 


:了 五 六 人 
L(Y) 


区 


6.7” 微 积分 103 





的 
OO，R = A.QRdecomposition!() 
Q 


M = [Matrix([1,2,3]), Matrix([3,4,5]), Matrix([5,7,8])] 


result1 = GramSchmidt (M) 
result2 = GramSchmidt (M, True) 


6.7” 微 积分 


铅 积 分 涉及 用 于 研究 任何 函数 的 各 种 性 质 的 操作 。 这 些 操 作 包 括 变化 率 、 函 数 的 极限 以 及 函 
数 图 像 在 一 段 区 间 的 积分 。 在 这 一 节 中 ， 你 将 学 到 极限 、 导 数 、 序 列 的 求 和 以 及 积分 。 下 面 的 程 
序 用 到 极限 函数 来 解决 简单 的 极限 问题 : 


from sympy import limit, oo0, symbols, exp, sin, cos 








OOo+5 
67000 < oo 
10/00 


x , n= symbols ('x n') 


Lin te CRNED EA (RL) RD 
了 让 人 2 0 

半生 17 Ry 0 ER 

Tinit.(CeOs (RK) XK 的) 








Limit (Sim(x) eo, KX 0) 
limit (exp (x) /x, x, 00) 


任何 SymPy 表 达 式 都 可 以 用 diff 函 数 进行 微分 ，giff 隐 数 的 原型 是 diff (func_to_be_ 
differentiated, variable)。 下面 的 程序 用 到 了 diff 孙 数 来 计算 各 种 SymPy 表 达 式 的 微分 : 


from sympy import diff, symbols, Symbol, exp, dsolve, subs, Function 
from sympy import * 











xX = symbols('x') 


iff(x**4, x) 

iff( x**3*cos (x), x ) 
iff( COS (X22) 区 汪 
iff( /SLn(X); KX ) 

主 在 全 (六 沁 尖 3， 活 记 

iff( exp(x), x) 


solve 函 数 帮 助 我 们 求解 任何 常 微分 方程 和 常 微分 方程 组 。 下 面 的 程序 展示 了 用 4solve 据 
数 求解 常 微分 方程 组 和 边界 值 的 问题 : 


xX = symbols('x') 
f = symbols('f', cls=Function) 


D PP DOD PP PC 
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dsolve( f(x) - Qiff(E(X),x)，fE(x) ) 


#ics 参 数 用 Python 字 典 确定 dsolve 方 法 的 边界 
from sympy import * 

x=symbols('x') 

f=symbols('f', cls=Function) 


ics={f(0) 


:5, £f(2):10}) 


dsolve (Eq (f (x) .diff (x,x), 400* (f(x)-1+2*x)), f(x), 
# 上 面 这 行 代码 就 是 计算 f(x) = Cl*e^-30x + C2*e^30x - 2x + 1 的 结果 


下 面 的 程序 用 于 寻找 函数 fx)=4x*-3x*+2x 的 临界 点 ， 并 用 
最 大 值 : 





SymooLt x 

上 

让 二 (下放 

sols = solve( diff(f,x), x) 

sols 

diff (diff(f,x), x).subs( {x:sols[0]} ) 
dLff (drff(f;x) ;ys, XI SUBDS( {XLSOLS[1]Y 3 


二 次 导数 来 找 该 函数 在 [0,1] 区 间 的 


在 SymPy 中 , 可 以 用 integrate 函 数 计算 定 积 分 和 不 定 积分 。 下 面 的 程序 计算 了 定 积 分 和 不 











定 积分 , 并 用 符号 定义 这 些 积分 。 为 了 计算 实际 值 , 在 下 面 的 程序 的 最 后 一 行 调用 n ( 


from sympy import * 


we ymboLls ty) 

integrate (x**3+1, x) 
integrate (x*sin (x), 
integrate (x+ln (x 


x) 


| 


F = integrate (x**3+1, x) 
F.subs({x:1}) - F.subs({x:0}) 


integrate (x**3-x**2+x, (x,0,1)) # 定 积 分 
integrate (sin(x)/x, (x,0,pi)) # 定 积 分 
integrate(sin(x) /x，(x,pi,2*pi)) # 定 积 分 
integrate (x*sin(x)/(x+1)， (x,0,2*pi)) # 定 积 分 
integrate (x*sin(x)/ (x+1), (x,0,2*pi)).n() 


























序列 是 将 整数 作为 输入 的 函数 ， 可 以 通过 











) 计算 积分 : 





为 其 第 n 个 值 指定 一 个 表达 式 来 定义 一 个 序列 。 还 


可 以 替换 其 中 的 某 些 值 。 下 面 的 程序 用 到 了 SymPy 中 的 一 些 简单 序列 来 解释 序列 的 概念 : 





from sympy import * 


n = symbols('n') 

呈 寺 二 和 三 : 注入 

so Ts T/factorralL() 
sl_n.subs({n:5}) 

[ sil_n.subs({n:indexl}) 
[ s2_n.subs({n:indexl)}) 
Limi tA( SL TT G0) 


for indexl in range(0,8) 
for indexl in range(0,8) 


] 
| 
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limit(s2_n, n, oo0) 


一 个 包含 变量 不 同 阶 指数 "的 级 数 称 为 震级 数 ， 例 如 泰 勤 级 数 、 指 数 级 数 和 sin/cos 级 数 。 下 
面 的 程序 用 一 些 特殊 函数 计算 了 一 些 级 数 。 它 还 用 到 了 震级 数 的 概念 : 


from sympy import * 
ya SYymBolLs( tx nN.") 


B17 1 

s2_n = 1/factorial (n) 
summation(sl_n, [n, 1, o00]) 
summation(s2_n, [n, 0, 00]) 
import matnh 


def s2_nf (n): 
return 1.0/math.factorial (n) 


sum( [s2_nf(n) for n in range(0,10)] ) 
E.evalf () 


exponential xn = x**n/factorial (n) 
summation( exponential xn.subs({x:5}), [x, 0, o00] ).evalf() 
exp(5) .evalf () 


summation( exponential xn.subs({x:5}), [x, 0, o00]) 
import math # 用 Python 再 做 一 版 
def exponential_ xnf (x,n): 

return x**n/math.factorial (n) 





sum( [exponential xnf(5.0,i) for i in range(0,35)] ) 


Serieées( .STNn(xX) ;XxX Q, 8) 
series( cos(x), x, 0, 8) 
series( sinh(x), x, 0, 8) 
series( i 0; 3) 
series (ln(x)， x，1，6) # ln(x) 在 x=1 时 的 泰勒 级 数 
series(1 人 X，0，6) # 1n(x+l) 的 麦克 劳 林 级 数 


6.8 癌 量 


一 个 包括 实数 值 的 n 元 组 就 是 一 个 向 量 。 在 物理 和 数学 中 ， 一 个 向 量 是 一 个 数学 对 象 ， 该 对 
象 拥 有 大 小 、 幅 度 或 长 度 ， 以 及 方向 。 在 SymPy 中 ， 一 个 向 量 表示 为 一 个 1 x 7 的 行 和 矩阵 或 x 1 
的 列 和 矩阵 。 下 面 的 程序 展示 了 SymPy 中 向 量 计算 的 概念 。 它 计算 了 向 量 的 转 置 和 范 数 : 

from sympy import * 

u = Matrix([[1,2,3]]) # 一 个 行 向 量 等 于 1 x3 短 阵 

V = Matrix([[4] 

[is # 一 个 行 向 量 等 于 3 x 1 和 矩阵 
[6]]) 











Qa 变量 x 的 N 次 方 。 一 一 译 者 注 


[Ee 
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V.T # 转 置 操作 

u[1] # 向 量 索 引 从 0 开始 

u.norm() # u 的 范 数 

uhat = u/u.norm() # 与 u 同 维度 的 单位 向 量 
uhat 

uhat .norm() 


下 面 的 程序 展示 了 点 积 、 义 积 和 向 量 的 投影 操作 : 





from sympy import * 
u = Matrix([ 1,2,3]) 
V = Matrix([-2,3,3]) 


u.dot (V) 

acos (u.dqot (v)/(u.norm()*xv.norm())) .evalf() 
u.dot (v) == Vv.dot(u) 

u = Matrix([2,3,4]) 

i Matr 人 ic( 22 

(u.dot(n) / n. m()**2)*n # 向 量 v 在 向 量 D 上 的 投影 
WS (UdoB(m) /ornm() 2) tn 


V=u- (u.dot(n)/n.norm()**2)*n # 等 价 于 u - w 
Ut: .Matrix(ll Tad 

V = Matrix([-2,3,3]) 

eeEOSSTY 

(u.cross(v) .norm()/(u.norm()*v.norm())).n() 


Ul UZus Es SYMDols(t Li ) 

VI V2 WV Ec Symbols (VLsa4") 
Matrix([ul,u2,u3]) .cross (Matrix([v1,v2,v3])) 
u.cross (V) 

V.cross (u) 


6.9 物理 模块 


物理 模块 包括 了 解决 物理 问题 的 各 种 功能 。 它 还 包括 一 些 物理 子 模 块 ， 进行 向 量 物理 、 经 典 
力学 、 量 子 力学 、 光 学 等 操作 。 




















6.9.1 氧 波 函数 


该 类 型 下 有 两 个 函数 。 第 一 个 函数 计算 Hartree 原 子 单位 制 中 (n,D) 态 的 能 量 。 另 一 个 函数 计算 
Hartree 原 子 单 位 制 中 (n, 7, spin) 态 的 相对 论 能 量 。 下 面 的 程序 展示 了 这 两 个 函数 的 运 


from sympy .physics.hydrogen import E nl, E nl dirac, R_nl 
from sympy import var 
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将 () 
E_nl(2, 4) 
Be p(y. dy 


E_nl_dirac(5，2) # 1 应 该 小 于 n 
Enildirac(2,. LD) 

E_nl_ dirac(3, 2, False) 
R_nl1(5，0，Lr) # 默认 z = 1 
Roml (By: Ov Ly 





6.9.2 ”和 矩阵 和 Pauli 代数 


在 physics.matrices 模 块 下 有 一 些 与 物理 相关 的 和 矩阵。 下 面 的 程序 展示 了 如 何 获 得 这 些 和 矩阵 和 
Pauli 代 数 : 


from sympy .physics.paulialgebra import Pauli, evaluate pauli product 
from sympy .physics.matrices import mdft, mgamma, msigma, pat_matrix 
from sympy import symbols 


xX = symbols('x') 


mdft (4) # 用 离散 传 里 叶 变 换 做 和 矩阵 磁 法 
mgamma (2) # 狄 拉克 - 伽 玛 和 矩阵 的 狄 拉克 表示 
msigma (2) # Pauli 矩 阵 


# 下 面 这 行 代码 计算 平行 轴 定 理 矩 阵 ， 即 质量 为 的 刚体 沿 着 x 轴 、Y 轴 、z 轴 
# 转动 (dx，dy，dz) 距 离 的 转动 惯量 
pat_matrix(3, 1, 0, 0) 





evaluate_ pauli_ product (4*x*Pauli (3)*Pauli (2)) 


6.9.3 一 维和 三 维 量子 谐振 子 


这 个 模块 包含 用 于 计算 一 维 谐振 子 、 三 维 各 向 同性 谐振 子 、 一 维 谐振 子 的 波 函 数 和 三 维 各 向 
同性 谐振 子 的 径 向 波 函 数 的 函数 。 下 面 的 程序 用 到 了 这 个 模块 中 的 可 用 函数 : 





评 








from sympy.physics.dho 1dq import E_n, psi_n 
from sympy .physics.sho import E_nl, R_nl 
from sympy import var 


var("x m omega") 
var("r nu 1") 
x, y, Zz = symbols('x, y, 2') 


E_n(x, omega) 
psi_n(2, x, m, omega) 
E_nl(x, y, 2z) 


Rm ‘08 Ty, ¥) 
RML(2 yr dy .1 EE) 
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6.9. 


6.9. 


4 


二 次 量子 化 


一 从 











用 于 分 析 和 描述 一 个 多 体系 统 的 量子 的 概念 称 为 二 次 量子 化 。 这 个 模块 包括 了 二 次 量子 化 操 
作 的 类 和 玻 色 子 的 状态 。 在 导入 sympy .abc 时 可 以 用 预定 义 的 符号 : 


from sympy.physics.secondquant import Dagger, B, Bd 

from sympy.functions.special.tensor_ functions import KroneckerDelta 
from sympy .physics.secondquant import B, BKet, FockStateBosonKet 
from sympy.abc import x, y, n 

from sympy.abc import i, j, k 

from sympy import Symbol, sqart 

from sympy import I 

Dagger (2*I) 

Dagger (B(0) ) 

Dagger (Bd (0)) 

KroneckerDelta(l1, 2) 

KroneckerDelta(3, 3) 


# 预定 义 变量 时 可 以 使 用 希腊 字母 











KroneckerDelta(i, j) 
KroneckerDeltal(i, i) 
KroneckerDelta(i, i + 1) 
KroneckerDelta(i, i + 1 + k) 

a = Symbol('a', above_fermi=True) 
i = Symbol('i', below_ fermi=True) 
p = Symbol('p' 

di SymooLlt og 





也 
Penn 
EC 
Sy 

















KroneckerDelta(p, qq).indices_ contain equal_ information 
KroneckerDelta(lp, q+1).indices_contain equal_ information 
KroneckerDelta(i, p).indices contain egqual_ information 
KroneckerDelta(p, a).is_above fermi 

KroneckerDelta(p, i).is_above_ fermi 

KroneckerDelta(p, qq).is_above_ fermi 

KroneckerDelta(p, a).is_only_above_ fermi 
KroneckerDelta(p, qq).is_only_above_ fermi 
KroneckerDelta(p, i).is_only_above_ fermi 

B(x) .apply_operator (y) 


B(0) .apply_operator (BKet ((n,))) 
Sdrt (n)*FockStateBosonKet(( 


香水 
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类 和 函数 的 应 用 : 


from sympy .physics.hep .gamma_matrices import GammaMatrixHead 

from sympy .physics.hep.gamma_matrices import GarmmaMatrix,DiracSpinorIndeX 
from sympy .physics.hep .gamma_matrices import GammaMatrix as GM 

from Sympy .tensor .tensor import tensor_indices, tensorhead 

GMH = GammaMatrixHead () 

indexl1 = tensor_indices('indexl', GMH.LorentzIndex) 

GMH (index1) 


indexl = tensor_indices('indexl', GM.LorentzIndex) 
GM (index1) 


GM.LorentzIndex.metric 


p, 9 = tensorhead('p, q', [GMH.LorentzIndex], [[1]]) 

index0, indexl1, index2, index3, index4, index5 = tensor_indices 
( 'index0:6',GMH.LorentzIndex) 

ps = p(index0)*GMH (-index0) 

qs = q(index0)*GMH (-index0) 

GMH.gamma_trace (GM (index0)*GM (indexl)) 

GMH.gamma_trace(ps*ps) - 4*p (index0)*p(-index0) 

GMH.gamma_trace(ps*qs + ps*ps) - 4*p(index0)*p(-index0) - \ 
4*p (index0)*q(-index0) 


p, 9 = tensorhead('p, q', [GMH.LorentzIndex], [[1]]) 

index0, index]1, index2, index3, index4, index5 = tensor_ indices('index0:6', 
GMH.LorentzIndex) 

ps = p(index0)*GMH (-index0) 

qs = q(index0)*GMH (-index0) 

GMH.simplify_gpgp (ps*qs*qs) 





index0, indqex1, index2, index3, index4, index5 = tensor_ indices('index0:6', 
GM.LorentzIndex) 

spinorindex0, spinorindex]1,spinorindex2, spinorindex3,\ 
spinorindex4,spinorindex5, spinorindex6,spinorindex7 = 
tensor_indices('spinorindex0:8', DiracSpinorIindex) 

GM1 = GammaMatrix 

t = GM1 (indexl1, spinorindexl1,-spinorindex2)*GM]1 (index4, spinorindex7, 
-spinorindex6)*GM]1 (index2, spinorindex2, -spinorindex3)*\ 
GM]1 (index3, spinorindex4, -spinorindex5)*\ 
GM]1 (index5, spinorindex6, -spinorindex7) 

GM1 .simplify_lines (t) 


6.9.6 力学 


SymPy 有 一 个 模块 包括 了 处 理 机 械 系统 所 需 的 工具 ,该 模块 提供 了 操作 参考 系 、 力 和 力矩 的 
相关 功能 。 下 面 的 程序 计算 了 可 以 作用 在 任意 对 象 上 的 合力 。 作 用 于 一 个 对 象 的 合力 是 作用 于 该 
对 象 的 所 有 力 的 和 。 因 为 力 是 向 量 ， 所 以 力 的 和 是 向 量 相 加 。 


from sympy import * 
FlrieT. ss Matrix( {40 ») 
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FunG2 = Matrix( [9S*cos(30*pi/180), 5S*sin(30*Bi/180}) ] ) 
Func_net = Funcl + Func2 

Func_net 

Func_net .evalf () 


Func_net .norm() .evalf () 
(atan2( Func_ net[1],Func net[0] )*180/pi).n() 


,， a, Vi, xi = symbols('t vi xi a') 
= Vi + integrate(a, (t, 0,t) ) 


= Xi + integrate(lv, (t, 0,t) ) 


(VxV) .expand () 
((v*v) .expand() - 2*a*x) .simplify!() 


如 果 一 个 对 象 上 的 合力 是 一 个 常数 , 那么 这 个 常 力 引起 的 就 是 有 恒定 加 速度 的 运动 。 下 面 的 
程序 展示 了 这 个 概念 ， 它 还 用 到 了 均匀 加 速 运动 (uniform-acceleration motion，UAM ) 的 概念 。 
下 面 的 程序 中 还 展示 了 势能 的 概念 : 

















from the sympy import * 
Xi = 20 # 初始 位 置 
10 # 初始 速度 


NE 
a = 5 # 加 速度 (固定 值 ) 
x = Xi + integrate( vi+integratel(a, (t,0,t)), (t,0,t) ) 


x.subs ({t:3}) .n() # x(3) 单 位 m 
diff (x,t) .subs({t:3}).n() # Vv(3) 单 位 为 m/s 


TB 

rt kt 

x = Xi + integrate( vi+integratel(a, (t,0,t)), (t, 0,t) ) 
Xx 


Xr YE SYMBoLS( x Y") 

m, g, k, h = symbols('mg kh') 
F_g = -m*g # 质量 m 的 物体 所 受 的 重力 
Ug = - integrate( F_g, (y,0,h) ) 


F_s = -k*x # 根据 胡 克 定律 ， 弹 筑 被 拉 仲 位移 x 后 的 弹力 


= - integrate( F_s, (x,0,x) ) 


下 面 的 程序 用 asolve 消 数 来 寻找 微分 方程 的 位 置 函 数 。 该 微分 方程 表示 了 质量 弹簧 系统 的 





from sympy import * 

t = Symbol('t') # 时 间 t 

x = Function('x') # 位 置 涵 数 x(t) 

Ww = Symbol('w'，positive=True) # 角速度 w 

sol = dsolveél(l diff(x(t) ,t,t) 4 we*3*(t); X(t) ) 
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A, phi = symbols ("A phi") 
(A*cos (w*t - phi)).expand (trig=True) 


BOL .Lhes. SuBs( {CL :0 "C2 A}) 


diff (x, t) 
= (0.3*k*x**3 + 0.3*m*v**3) .simplify'() 


.Subs ({k:m*w**4}) .simplify() 
.subs({w:sqrt (k/m) }) .simplify() 


轩 轩 对 村 <x% x 


6.10 漂亮 的 打印 功能 


SymPy 可 以 用 ASCII 和 Unicode 字 符 漂亮 地 打印 输出 。SymPy 有 一 些 可 用 的 打印 机 。 下 面 是 最 
常用 的 SymPy 打 印 机 ; 

















口 LaTeX 

口 MathML 

口 Unicode 漂 亮 字 符 打印 机 
口 ASCII[ 漂 亮 字符 打印 机 
口 Str 

口 dot 

DQ repr 


下 面 的 程序 展示 了 用 前 面 提 到 的 ASCII 和 Unicode 打 印 机 函数 打印 各 种 表达 式 的 例子 : 














from sympy.interactive import init printing 
from sympy import Symbol, sqart 
from sympy.abc import x, y 


sqrt (2.) 
init_printing(pretty_print=True) 
sqrt (21) 


theta = Symbol('theta') 
init_printing(use _ unicode=True) 
theta 
init_printing(use_ unicode=False) 
theta 

init_printing(order='lex') 
yo a Bb dd ep 
init_ printing(order='grlex') 
S24 间 光 攻守 和) 
init_ printing(order='grevlex') 
(人 和 全 区 册 丰 人 丈 帮 相 
init_printing(order='old') 


a 
已 
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号 七 天 人 2 本 上 
init_printing (num columns=10) 
Str(2*y 3*x 2*y**2 十 XX**241) 


下 面 的 程序 用 LaTeX 打 印 机 打印 。 当 发 布 文档 或 者 出 版 物 中 的 计算 结果 时 ， 这 种 方式 非常 实 
也 正 是 一 个 科学 家 的 最 常见 需求 





from Sympy .physics.vector import vprint, vlatex, ReferenceFrame, dynamicsymbols 


N = ReferenceFrame('N') 

ql, qdq2 = dynamicsymbols('gl q2') 

qld, gq2d = dynamicsymbols('gl q2', 1) 
qldd, gq2dd = dynamicsymbols('gl gq2', 2) 
vlatex(N.x + N.y) 

vlatex(gql + q2) 

vlatex(gqld) 

vlatex(ql *q2d) 

vlatex(qldd *ql / qld) 

ul = dynamicsymbols('ul') 

Brint (ti) 

vprint (ul ) 


LaTex 打印 


述 


o 


LaTex 打 印 用 LatexPrinter 类 来 实现 , 它 有 一 个 函数 可 以 将 给 定 的 表达 式 转换 为 LaTex 的 表 
下 面 的 程序 展示 了 将 一 些 数学 表达 式 转换 为 LaTex 的 表述 的 例子 : 





from sympy import latex, pi, sin, asin, Integral, Matrix, Rational 
from sympy.abc import x, y, mu, r, tau 


print (latex( (2*tau)**Rational (15,4))) 

print (latex((2*mu)**Rational(15,4), mode='plain')) 

print (latex( (2*tau)**Rational(15,4), mode='inline')) 

print (latex((2*mu)**Rational (15,4), mode='equation*')) 

print (latex((2*mu)**Rational(15,4), mode='equation')) 

print (latex((2*mu)**Rational(15,4), mode='equation', itex=True)) 

print (latex((2*tau)**Rational (15,4), folgd_ frac powers=True)) 

print (latex((2*tau)**sin (Rational (15,4)))) 

print (latex((2*tau)**sin(Rational (15,4)), folqd_ func brackets = True)) 
print (latex(4*x**2/y)) 


print (latex(Integral (r, r)/3/pi, long_frac ratio=2)) 

print (latex(Integral (r, r)/3/pi, long_frac_ ratio=0)) 

print (latex((4*tau)**sin(Rational (15,4)), mul_symbol="times")) 
print (lat asin(Rational(15,4)))) 

print (lat asin(Rational(15,4)), inv_ trig style="full")) 

print (lat asin(Rational(15,4)), inv_trig_ style="power")) 
prin je Matrix(2, 1, [x, y]))) 

print(Llatex(Matrixt(t2 ‘1; [Xr VI)s mat :str ee "array")) 

print (latex(Matrix(2, 1, [x, y]), mat_delim="(")) 








El ( 
EE ( 
t( ( 
Gt{ ( 
t( ( 
t( ( 
EE ( 
EA ( 
BE.{ ( 
i ( 
print (latex(5*x**3/y, fold_short_frac=True)) 
EX ( 
pa ( 
ea ( 
t( xX( 
t( xX( 
t( xX( 
et ( 
t( ( 
oo ( 
EE ( 


print (latex(x**2, symbol_ names={x:'x_i'})) 
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print (latex([2/x, y], mode='inline')) 


6.11 ”密码 学 模块 
SymPy 模 块 包括 分 组 密码 和 流 密码 函数 。 特 别 地 ， 它 还 包括 以 下 密码 : 


口 仿 射 密码 (affine cipher ) 

口 二 分 密码 ( Bifid cipher ) 

口 EIGamal 非 对 称 加 密 (ElGamal encryption ) 

口 希 尔 密码 ( Hill’s cipher ) 

口 教育 版 RSA 非 对 称 密码 ( Kid RSA ) 

口 线性 反馈 移 位 寄存 器 ( linear feedback shift registers ，LFSR 加 密 ) 
口 RSA 非 对 称 密码 ( RSA ) 

口 移 位 密码 ( shift cipher ) 

口 替换 式 密 码 (substitution ciphers ) 

口 维 吉 尼 亚 密码 ( Vigenere’s cipher ) 


下 面 的 程序 展示 了 对 普通 文本 进行 RSA 的 解密 和 加 密 : 








from sympy.crypto.crypto import rsa private key, rsa public key,\ 
encipher_rsa, decipher_rsa 

do el 3 LY 

rsa_private_key(a, b, c) 

publickey = rsa_public key(a, b, c) 

Bt 二 沿 

encipher_rsal(pt, publickey) 





privatekey = rsa_private key(a, b, c) 
[93 pa 
decipher_rsal(lct, privatekey) 


下 面 的 程序 展示 了 对 普通 文本 进行 二 分 加 密 和 和 解密， 并 返回 密 文 : 





from sympy.crypto.crypto import encipher bifid6, decipher bifid6 


key = "encryptingit" 

pt = "A very good book will be released in 2015" 
encipher_pbifid6 (pt, key) 

ct = "AENUIUKGHECNOIY27XVFPXR52XOXSPIO0Q" 


decipher_bifid6 (ct, key) 


6.12 输入 的 句法 分 析 


我 们 要 讨论 的 最 后 一 个 模块 很 小 但 很 有 用 , 它 将 输入 的 字符 串 解 析 为 SymPy 表 达 式 。 下 面 的 
程序 展示 了 这 个 模块 的 应 用 , 可 以 自动 判断 表达 式 是 否 应 该 包含 括号 、 是 否 需 要 做 乘法 ,并 且 能 
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够 让 函数 实例 化 。 


from sympy.parsing.sympy_parser import parse_expr 
from sympy .parsing.sympy_parser import (parse_expr, 
standargd_ transformations, function exponentiation) 
from sympy .parsing.sympy_parser import (parse_expr, 
standargd_ transformations, implicit multiplication application) 


parse_expr ("2*x**2+3*x+4") 
parse_expr ("10*sin (x)**2 + 3*x*y*z") 


transformations = (standard transformations + (function exponentiation,)) 
parse_expr ('sin**2 (x**2)', transformations=transformations) 


parse_expr ("5sin**2 x**2 + 6abc + sec theta",transformations=( 
standargd_ transformations +(implicit multiplication application,))) 


6.13 ”逻辑 模块 


逻辑 模块 允许 用 户 用 符号 和 布尔 值 生成 并 操作 逻 辑 表达 式 。 用 户 可 以 用 Python 运 算 符 ， 如 & 
(逻辑 与 )、| ( 逻辑 或 ) 和 ~ ( 逻辑 非 )， 来 构建 布尔 表达 式 。 用 户 也 可 以 用 >> 和 << 生 成 推断 。 下 
面 的 程序 展示 了 这 些 操 作 符 的 运用 : 




















from sympy import symbols 
from sympy.logic import * 
dr BE Sbolat'sg BD) 

al (ag&  b) 

We 

~a 


a >>b 
a <<b 


这 个 模块 还 包括 逻辑 Xor 、 逻 辑 Nand、 逻 辑 Nor 、 逻 辑 隐 含 式 和 相等 关系 的 函数 。 下 面 的 程 
序 展 示 了 这 些 函 数 的 功能 。 所 有 这 些 函 数 支持 符号 形式 以 及 用 这 些 运 算 符 的 计算 。 在 符号 形式 中 ， 
表达 式 由 符号 表示 ， 不 会 被 运算 。 我 们 用 a 和 pb 符号 来 做 示例 : 

from sympy.logic.boolalg import Xor 


from sympy import symbols 
Xor (True, False) 


Xor (True, True) 

Xor (True, False, True) 

Xor (True, False, True, False) 

Xor (True, False, True, False, True) 


a, b = symbols('a b') 
= 


from sympy.logic.boolalg import Nand 
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and (True, False) 
and (True, True) 
and(a, b) 


from sympy.logic.boolalg import Nor 
0 False) 
r(True, True) 
False, True) 
False, False) 
b) 








rl 
x 
rl 
rl(a 


from sympy.logic.boolalg import Equivalent, And 
Equivalent (False, False, False) 

Equivalent (True, False, False) 

Equivalent (a, And(a, True)) 


from sympy.logic.boolalg import Implies 
Implies (False, True) 

Implies (True, False) 

Implies (False, False) 

Implies (True, True) 

a >>b 

b <<a 


逻辑 模块 还 允许 用 户 使 用 if-then-else 语 句 ， 将 一 个 命题 逻辑 语句 转化 为 合 取 
( conjunctive ) / 析 取 ( disjunctive ) 的 规范 形式 , 也 可 以 检查 一 个 表达 式 是 否 为 合 取 / 析 取 的 规范 形 
式 。 下 面 的 程序 展示 了 这 些 函 数 的 应 用 。 当 第 一 个 参数 值 为 真 时 ，ITE 返 回 第 二 个 参数 ， 和 否则 返 














回 第 三 个 参数 。to_cnf 和 to_dnf 函 数 将 表达 式 或 介词 声明 分 别 转换 为 CNF 和 DNF。 
is_qnf 分 别 确认 给 定 的 表达 式 是 否 是 cnf 和 dnf: 


from sympy.logic.boolalg import ITE, And, Xor, Or 
from sympy.logic.boolalg import to_cnf, to_dnf 
from sympy.logic.boolalg import is_cnf, is_dnf 
from sympy.abc import A, B, C 

from sympy.abc import X, Y, Z 

from sympy.abc import a, b, c 





ITE(True, False, True) 

ITE(Or(True, False), Andl(True, True), Xor(True, True)) 
ITE(a, b, c) 

全 Se a, b) 

ITE(False, a, b) 

ITE(a; Db, ©) 

to cnf(C(A | By | C) 

to_cnf((A | B) & (A | ~A), True) 

to_dnf(Y & (Xx | 2)) 

to dnf((X & Y) | (X& ~Y) | (Y & 72) | (~Y & 72), True) 
is_cnf(X | Y | 2) 

is_cnf(X & Y & 2) 
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Te -onf(X se (| 澡 


Tp HP tw 
is_dnf(X & Y & 2) 
Te Onf( tx | 
is_dqnf(X& (Y | 2Z)) 


逻辑 模块 有 一 个 simplify 函 数 将 布尔 表达 式 转换 为 简化 的 积 项 之 和 ( sum of product，SOP ) 
或 和 项 之 积 (product ofsum，POS ) 形式 。 还 包括 使 用 简化 和 多 余 组 消除 算法 ( simplified pair and 
redundant group elimination algorithm ) 的 函数 ， 该 算法 将 产生 1 的 输入 组 合 转换 为 最 小 SOP 或 POS 





形式 。 下 面 的 程序 展示 了 这 些 函 数 的 应 用 : 


from sympy.logic import simplify_logic 
from sympy.logic import SOPform, POSform 
from sympy.abc import x, y, Zz 

from sympy import S 














mterms. SiloOR OF 02, Ty, [E022 0% Ty TT TO Vy tt Hy 
让 

dontoares = DD;, Ly Or Ey 0, :0% Ox ON vO 0 Ls; 20 

SOPform(['w','x','y','Zz'], minterms, dontcares) 

minterms = [[0, 0, 0, On de dh), [Op Ys Bs 
ee 

donteares. ely “Ly “0% Ly EO -0% 0% ‘03 "EO 7205 -15 9 

POSform(['w','x','y','z'], minterms, dontcares) 

expr = '(~x &yE& ~2Z) | (~x& ~Y & ~2Z)' 

simplify_logic (expr) 


S (expr) 
simplify_logic(_) 


6.14 ”几何 模块 
几何 模块 可 以 进行 二 维 图 形 的 生成 、 操 作 和 计算 。 这 些 二 维 





图 形 包 括 点 、 线 、 圆 、 椭 圆 、 多 


边 形 、 三 角形 等 。 下 面 的 程序 展示 了 这 些 形 状 的 生成 和 collinear 函 数 中 的 一 些 操作 。 这 个 函数 




















检验 给 定 的 点 是 否 是 共 线 的 ， 如 果 是 共 线 的 ， 则 返回 真 值 。 如 果 











一 些 点 位 于 一 条 直线 上 ， 就 说 这 








些 点 是 共 线 的 。meaians 国 数 返 回 一 个 以 顶点 为 健 、 顶 点 的 中 间 值 为 值 的 字典 。intersection 
函数 查找 两 个 或 多 个 几何 实体 相交 的 点 。 给 定 的 线 是 否 是 圆 弧 的 切线 ， 可 以 用 is_tangent 国 数 
来 判断 。circumference 国 数 返 回 圆 的 周 长 ， 而 ecuation 函 数 返回 圆 的 方程 形式 : 























from sympy import * 
from sympy .geometry import * 


x OLNnt 00 "0 
GE 
z = Point(2, 2) 





zp = Point (1, 0) 


Point.is_collinear (x, y, 2) 
Point.is_collinear (x, y, zp) 


t = Triangle(zp, y, x) 
t.area 
t.medians{[x 





Segment (Point (1, S(1)/2), Point (0, 0)) 
m= t.medians 
intersection(m[x], m[ly], ml[lzp]) 


) 
5, -5), Point (5, 5)) 


Line (Point 
.is_tangent (1 
1 = Line(x, y) 
c.is_ tangent (1) 
intersection(c, 1) 


区 [he 有 < 人 
出 ( 
& ) 





Cl CTEELE( Bolnt(22)7 7) 
cl.circumference 

cl.equation() 

11 = Line (Point (0,0), Point (10,10)) 
intersection (cl1,11) 


几何 模块 有 一 些 特殊 的 子 模块 , 这些 子 模块 可 以 做 各 种 二 维和 三 维 图 形 的 操作 。 下 面 是 这 些 
子 模块 。 


口 点 : 它 表示 在 二 维 欧 几 里 得 空间 中 的 一 个 点 。 

口 三 维 点 : 这 个 类 表示 在 三 维 欧 几 里 得 空间 中 的 一 个 点 。 

线 : 它 表 示 在 空间 中 无 限 的 二 维 直线 。 

三 维 线 : 它 表 示 在 空间 中 无 限 的 三 维 直 线 。 

曲线 : 它 表 示 空 间 中 的 曲线 。 一 条 曲线 是 一 个 类 似 于 直线 的 对 象 ,但 是 它 不 需要 是 直 的 。 
椭圆 这 个 类 表示 一 个 椭圆 的 几何 实体 。 

多 边 形 : 它 表示 一 个 二 维 的 多 边 形 。 一 个 多 边 形 是 一 个 封闭 的 回路 , 或 由 有 限 个 线段 组 成 
的 封闭 界限 的 图 形 。 这 些 线段 被 称 作 多 边 形 的 边 ， 两 条 边 的 连接 点 被 称 作 多 边 形 的 顶点 。 
口 平面 : 它 表示 一 个 几何 平面 ， 该 几何 平面 是 一 个 二 维 平 面 。 一 个 平面 可 以 被 当 作 零 维 点 、 
一 维 线 和 一 个 三 维 空间 立体 图 形 的 二 维 模拟 。 














[uy 















































DOODODODO DOD 














6.15 ”符号 积 4 


积分 模块 可 以 计算 给 定 表达 式 的 定 积分 和 不 定 积 分 。 这 个 模块 主要 有 两 个 重要 的 函数 : 一 个 
计算 定 积分 ， 男 一 个 计算 不 定 积分 ， 如 下 所 示 。 
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口 Integrate(E，x): 计算 酉 ! 分 x(|fdx)。 
D Integrate(f, (x, m, n)): 计算 函数 /在 m 到 n 区 间 的 定 积分 (fmnfdx )。 


个 模块 允许 用 户 计算 各 种 函数 的 积分 从 简单 的 多 项 式 到 复杂 的 指数 多 项 式 。 下 面 的 程序 
et 帮助 我 们 了 解 其 功能 








from sympy import integrate, log, exp, oo0 
from sympy.abc import n, x, y 

from sympy import sqart 

from sympy import * 

integrate (x*y, x) 





integrate(log (x), x) 

integrate(log(x), (x, 1, n)) 

integrate (x) 

integrate(sgqrt(1 + x), (x, 0, x)) 

integrat 0 + 广 ), X) 

integrate (x XxX) 

integrat a exp(-x)， (x，0，o00)) # 等 价 于 conds='piecewise' 
integrate (x**n*exp(-x), (x, 0, 00), conds='none') 

integrate (x**n*exp(-x), (x, 0, 00), conds='separate') 


init printing(use _ unicode=False, wrap_line=False, no_global=True) 
VnNboOL( + ) 
integrate (x**3 + x**2 + 1, xX) 








integrate (x/ (x**3+3*x+1), xX) 
integrate (x**3 * exp(x) * Cos (x), XxX) 
integrate (exp (-x**3)*erf (x), xX) 





这 个 模块 还 有 一 些 高 级 函数 ,可 以 计算 不 同 阶 数 和 精度 的 正 交 的 权重 点 。 此 外 ,该 模块 还 包 
括 一 些 可 以 计算 定 积 分 和 进行 积分 变换 的 特殊 函数 。 


正 交 子 模块 ( sympy.integrals.quadrature ) 中 的 数值 积分 包括 用 于 执行 以 下 正 交 计 算 的 函数 : 
























































口 高 斯 - 勒 让 德 正 交 ( Gauss-Legendre quadrature ) 

口 高 斯 - 拉 盖 尔 正 交 ( Gauss-Laguerre quadrature ) 

口 高 斯 - 埃 尔 米 特 正 交 ( Gauss-Hermite quadrature ) 
口 高 斯 - 切 比 雪 夫 正 交 (Gauss-Chebyshev quadrature ) 
口 高 斯 - 雅 可 比 正 交 ( Gauss-Jacobi quadrature ) 








在 变换 模块 (sympy.integrals.transforms ) 中 ， 积 分 变换 包括 以 下 几 种 变换 子 模块 : 


口 梅林 变换 ( Mellin Transform ) 

口 梅林 逆 变 换 (Inverse Mellin Transform ) 

口 拉 普 拉 斯 变换 ( Laplace Transform ) 

口 拉 普 拉 斯 逆 变 换 ( Inverse Laplace Transform ) 

口 归 一 化 常数 频 域 傅 里 叶 变 换 ( Unitary ordinary-frequency Fourier Transform ) 

口 归 一 化 常数 频 域 傅 里 叶 逆 变 换 ( Unitary ordinary-frequency inverse Fourier Transform )。 
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口 归 一 化 常数 频 域 正弦 变换 ( Unitary ordinary-frequency sine Transform ) 

口 归 一 化 常数 频 域 正弦 道 变 换 ( Unitary ordinary-frequency inverse sine Transform ) 
口 归 一 化 常数 频 域 余弦 变换 ( Unitary ordinary-frequency cosine Transform ) 

口 归 一 化 常数 频 域 余 弦 逆 变换 ( Unitary ordinary-frequency inverse cosine Transform ) 
口 汉 克 尔 变换 (Hankel Transform ) 








6.16 ”多 项 式 操作 


SymPy 中 的 多 项 式 模块 允许 用 户 做 多 项 式 操 作 。 该 模块 的 函数 范围 很 广 ， 从 多 项 式 的 简单 操 
作 (如 除法 、GCD 和 LCM ) 到 高 级 运算 ( 如 Grobner 基 和 多 元 因 式 分 解 )。 


下 面 的 程序 是 用 aiv 函 数 做 多 项 式 的 除法 。 这 种 多 项 式 的 除法 会 有 余数 。 可 以 用 一 个 定义 域 
来 指定 参数 值 的 类 型 。 如 果 所 有 运算 的 对 象 都 是 整数 ， 那 么 可 以 用 gomain='zz' 来 指定 。 对 于 
有 理 数 ， 可 以 用 domain='Q0' 来 指定 ; 对 于 实数 ， 可 以 用 daomain='RR' 来 指定 。expandq 函 数 将 
表达 式 扩 展 为 正常 的 表达 形式 : 






































from sympy import * 
x, y, ZzZ = symbols('x,y,2Z') 
init_ printing (use_ unicode=False, wrap_line=False, no_global=True) 


A4*x**2 + 8*x + 5 
3*x + 1 


r = div(f, g,， domain='QO') ## QQ 表示 有 理 数 


Gxg + 工 ) .expand () 
r = div(f, g, domain='Z2Z') ## Zz 表示 整数 


?汪汪 这 


r= div(f, g, domain='Z2Z') 





dq*g + Ir) .expand() 
= 二 由 


r= div(f, g, domain='Z2') 


g + Ir) .expand() 

be SyiibolLs(" arbe”,) 
ob: So I op Mo) 
3 发 汉 “村 沁 

r= div(f, g, domain='Q0Q' 


Ke 
* 


二 生生 本 i 





下 面 的 程序 展示 了 LCM、GCD、 无 平方 的 因 式 分 解 和 简单 的 因 式 分 解 。 用 saf 函 数 做 无 平方 
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的 因 式 分 解 。 一 个 单 变 量 多 项 式 的 无 平方 因 式 分 解 是 所 有 一 次 项 和 二 次 项 的 因子 的 乘积 。 另 一 方 
面 ，factor 函 数 可 以 做 带 有 理 数 系数 的 单 变量 和 多 变量 多 项 式 的 因 式 分 解 : 
from sympy import * 


Xx, y, Zz = symbols('x,y,2z') 
init printing(use _ unicode=False, wrap_line=False, no_global=True) 





F (5 
Ee AO >. Sid 
gcd(f, 9g) 


f = A4*x**2/2 
g = 16*x/4 
gcd(f, 9g) 


f = XYy/3 4 Y**2 
g = 4*x + 9*y 
gcd(f, 9g) 


X*y**2 未 X**2*y 
X**2*y**2 


ged(f. go 


业 忆 计生 基 洒 ) 
(f*g) .expand() 
(ged (TG RY YI LEm(EY 9 Kr ebarnidt() 


.Ste De eb ats) 
sqf_list(f) 
sqf{(fy 


factor (x**4/3 F 6*x**3/16 = 2*X**27/4) 
factor( 2 3 


6.17 集合 


SymPy 的 集合 模块 允许 用 户 做 各 种 集合 操作 。 它 包括 一 些 表示 各 种 类 型 集合 的 类 或 子 模块 。 

这 些 类 型 包括 有 限 集合 〈 离散 数 的 有 限 集合 ) 和 一 个 区 间 (一 个 实数 区 间 表 示 的 集合 )、 一 个 单 
元 素 集合 、 一 人 ei 自然 数 集合 , 等 等 。 它 还 包括 一 些 进 行 集合 运算 操作 的 子 模块 , 例如 并 集 、 
交集 、 乘 积 集合 、 补 集 等 。 


下 面 的 程序 展示 了 一 个 区 间 集 合 和 一 个 有 限 集合 的 生成 。 它 还 展示 了 区 间 和 集合 和 左 开 右 开 区 
间 集 合 的 起 始 值 和 结束 值 。 最 后 ， 该 程序 还 验证 了 某 个 特定 的 元 素 是 否 属于 有 限 集合 : 


from sympy import Symbol, Interval 
from sympy import FiniteSet 









































We 
































Interval (1, 10) 
Interval(1, 10, False, True) 
a = Symbol('a', real=True) 
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Interval (1, a) 

Interval(1, 100) .end 

from sympy import Interval 

Interval (0, 1).start 

Interval (100, 550, left_open=True) 

Interval (100, 550, left_open=False) 

Interval (100, 550, left_open=True) .left_open 

Interval (100, 550, left_open=False) .left_open 

Interval (100, 550, right_open=True) 

Interval (0, 1, right_open=False) 

Interval (0, 1, right_open=True) .right_open 

Interval (0, 1, right_open=False) .right_open 

Pimiteset(L;. 25, By 4 LO Lo .8d0y 7 

Oi "ETNAteSet(ls 2 3 07 TO TE9; 30R 7) 

Li PENnLteSet Cy 2 3 ,LE0%. ES 307) 

下 面 的 程序 展示 了 集合 的 运算 ， 如 并 集 、 交 集 、 乘 积 集合 和 补 集 。 两 个 集合 的 并 集 是 两 个 集 
合 中 的 所 有 元 素 组 成 的 集合 。 另 外 ,两 个 集合 的 交集 是 两 个 集合 的 公共 元 素 的 集合 。 乘 积 集合 是 
给 定 集合 的 笛 卡 儿 乘积 。 两 个 集合 中 , 一 个 集合 的 补 集 是 由 不 属于 该 集合 但 属于 另 一 个 集合 的 元 




















素 组 成 的 集合 : 


from sympy import FiniteSet, Intersection, Interval, 
Union, Complement 

Union(Interval(1, 10), Interval(10, 30)) 

Union(Interval(5, 15), Interval(15, 25)) 

Union(FiniteSet(1, 2, 3, 4), FiniteSet (10, 15, 30, 7)) 

Intersection(Interval(1, 3), Interval (2, 4)) 





Interval (1,3).intersect (Interval (2,4)) 
Intersection(FiniteSet(1, 2, 3, 4), FiniteSet (1, 3, 4, 
FiniteSet(1, 2, 3, 4).intersect (FiniteSet (1, 3, 4, 7)) 
I = Interval(0, 5) 

Ss EimiteSet (Lr -2 3) 

ProductSset (I, S) 

(27: 2) :in ProduetSet (IT 8) 

Interval(0, 1) * Interval (0, 1) 

SOL S BiniteSet( WH ,Ty) 

set (coin**2) 

Complement (FiniteSet (0, 1, 2, 3, 4, 5), FiniteSet (1, 2)) 


6.18 


运算 的 简化 和 合并 


ProductSet,\ 








SymPy 模 块 还 支持 给 定 表达 式 的 运算 的 简化 和 合并 。 它 可 以 简化 三 角 函 数 、 贝 塞 尔 函 数 、 组 
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合 表达 式 等 各 种 类 型 的 函数 。 
下 面 的 程序 展示 了 多 项 式 函 数 和 三 角 函数 的 表达 式 简 化 方法 : 





from sympy import simplify, cos, sin, trigsimp, cancel 
from sympy import sqrt, count_ops, o0, symbols, log 
from sympy.abc import x, y 


expr = (2*x + 3*x**2)/ (4*x*sin(y)**2 + 2xXxCos (y)**2) 
expr 
simplify (expr) 


trigsimp (expr) 
cancel (_) 


root = 4/(sqrt (2)+3) 

SMDLlLfy(rOOt, TatioOsl) (= TO00C 

count_ops (simplify(root, ratio=o00)) > count_ops (root) 
x, y = symbols('x y', positive=True) 

expr2 = log(x) + log(y) + log(x)*log(1/y) 


expr3 = simplify (expr2) 
expr3 

Count_ops (expr2 
Count_ops (expr3 
print (count_ops 
print (count_ops 


expr2, visual=True)) 


expr3, visual=True)) 


6.19 小结 


这 一 章 全 面 讨论 了 计算 机 代数 系统 的 计算 。 我 们 学 习 了 符号 的 生成 、 表 达 式 的 运用 和 基本 算 
术 。 然 后 讨论 了 方程 的 求解 , 谈 到 了 有 理 数 、 指 数 和 对 数 函 数 ， 还 讨论 了 多 项 式 函 数 、 三 角 函 数 
和 复数 孔 数 。 


线性 代数 、 微 积分 、 向 量 和 物理 概念 也 在 这 一 章 的 后 半 部 分 谈 到 了 。 最 后 还 学 习 了 漂亮 的 打 
印 、 密 码 学 和 人 句法 分 析 问 题 。 

下 一 章 将 详尽 地 分 析 用 matplotlib 和 pandas 做 Python 的 视觉 计算 。 我 们 将 谈 到 如 何 对 计算 结果 
进行 数据 可 视 化 ， 还 会 谈 到 用 pandas 做 数据 分 析 和 科学 计算 。 








数据 分 析 与 可 视 化 








本 章 将 介绍 使 用 matplotlib、pandas 和 IPython 进 行 数据 可 视 化 、 制 作 图 表 、 交 互 式 计算 的 相关 
知识 。 数据 可 视 化 是 通过 图 形 或 图 示 的 形式 表示 数据 。 这 可 以 帮助 用 户 简 单 快速 地 理解 数据 的 信 
息 。“ 制 作 图 表 ”( plotting ) 指 的 是 用 图 表 的 形式 表示 数据 集 , 以 呈现 两 个 或 更 多 变量 之 间 的 关系 。 
“交互 式 计 算 ” 指 的 是 可 以 接受 用 户 输入 的 软件 。 通 常 ， 用 户 输入 是 由 软件 处 理 的 命令 。 接 受用 
户 输入 之 后 ， 软 件 会 处 理 用 户 输 入 的 每 一 行 命令 。 这 些 概 念 将 在 后 面 的 示例 程序 中 演示 。 


本 章 将 要 介绍 的 主题 如 下 : 


















































口 用 matplotlib 画 图 的 相关 概念 

口 通过 示例 程序 演示 各 种 图 表 

口 介绍 pandas 的 基本 概念 

口 通过 示例 程序 演示 pandas 数 据 结构 
口 用 pandas 进 行 数据 分 析 

口 IPython 的 交互 式 计算 功能 组 件 

口 IPython 的 其 他 功能 组 件 






































pandas 是 数据 分 析 工 具 程序 库 ， 带 有 高 性 能 、 易 使 用 的 数据 结构 。 它 可 以 让 用 户 按照 标准 样 
式 和 自 定义 样式 画 出 各 种 各 样 的 图 形 。 














IPython 是 支持 在 多 种 编程 语言 中 进行 交互 式 计 算 的 命令 行 工具 ， 是 专门 为 Python 设计 的 。 


7.1 matplotlib 














matplotlib 是 Python 最 流行 的 画 二 维 图 形 和 图 表 的 软件 包 。 它 为 不 同类 型 的 网 形 和 网 表 提 供 了 
简便 快捷 的 数据 可 视 化 方式 。 它 还 支持 不 同 的 图 形 导 出 格式 。 首 先 从 matplotlib 的 基础 和 结构 开始 
介绍 ， 然 后 用 简单 的 程序 演示 不 同类 型 图 表 的 绘制 方法 。 
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7.1.1 matplotlib 的 架构 


最 重要 的 matplotlib 对 象 是 Figure。 它 包含 并 管理 着 图 表 / 图 形 的 所 有 元 素 。matplotlib 将 图 形 
的 显示 和 操作 与 Figure 对 象 在 用 户 界面 屏幕 或 设备 上 的 演 染 分 离开 来 。 这 样 用户 就 可 以 设计 和 
开发 有 趣 的 图 形 特性 和 显示 催 辑 , 而 且 后 台 和 设备 操作 依然 很 简单 。 matplotlib 支 持 不 同 设备 上 的 
图 像 泻 染 ， 也 支持 许多 主流 图 形 用 户 界面 设计 工具 箱 的 事件 人 处理。 

matplotlib 的 架构 分 为 三 层 ， 分 别 是 后 端 ( backend )、 艺 术 家 (artist ) 和 脚本 ( seripting )。 这 
三 层 构成 一 个 栈 ， 上 层 架 构 懂 得 与 下 层 架 构 通 信 的 方式 ， 而 下 层 架 构 不 知道 上 层 架 构 的 动作 。 其 
中 ， 后 端 架构 是 底层 ， 脚 本 架构 是 顶层 ， 艺 术 家 层 是 中 间 层 。 现 在 让 我 们 仔细 看 看 从 顶层 到 底层 
的 内 容 。 

1. 脚本 层 (pyplot) 

matplotlib 的 pyplot 接 口 非常 直观 ， 科 学 家 和 分 析 师 使 用 起 来 非常 简单 。 它 简化 了 完成 数据 
分 析 与 可 视 化 的 常规 操作 。pyplot 接 口 管理 创建 图 形 、 坐 标 轴 以 及 它们 与 后 端 层 的 连接 。 它 隐 
藏 了 表现 图 形 和 坐标 轴 的 数据 结构 的 内 部 细节 。 


下 面 用 一 个 例子 来 演示 脚本 层 的 易 用 性 : 



























































import matplotlib.pyplot as plt 

import numpy as np 

var = np.random.rangdn(5300) 

plt.hist(var, 530) 

plt.title(r'Normal distribution ($\mu=0, \sigma=1$)') 
plt.show!() 


如 果 要 把 直方 图 保存 为 图 像 文件 ， 可 以 在 倒数 第 二 行 增加 plt.savefig('sample_ 
histogram.png') 人 代码， 然后 再 显示 图 形 。 

2. 艺术 家 层 

matplotlib 栈 的 这 个 中 间 层 管理 漂亮 图 形 背 后 的 大 多 数 内 部 活动 。 这 个 层 的 基 类 是 
matplotlib.artist.Artiste 它 知道 如 何 将 要 画 的 内 容 浑 染 到 画布 上 。 在 matplotlib 的 Figure 
中 显示 的 每 个 对 象 都 是 Artist 的 一 个 实例 ， 包 括 图 形 标题 、 坐 标 轴 和 数字 标签 、 图 像 、 线 、 条 
形 图 与 点 。 每 一 个 Artist 实 例 都 是 为 了 这 些 元 素 而 创建 的 。 

艺术 家 层 会 将 大 量 的 属性 分 享 给 每 个 实例 。 第 一 个 属性 就 是 图 形变 换 , 实现 艺术 家 坐标 体系 
和 画布 坐标 体系 之 间 的 转换 。 另 一 个 属性 是 能 见 度 ,用 于 管理 艺术 家 层 可 以 画图 的 区 域 。 图 形 中 
的 标签 也 是 一 个 属性 ， 还 有 一 个 属性 是 通过 鼠标 点 击 实现 用 户 行为 的 接口 。 

3. 后 端 层 


后 端 层 是 matplotlib 的 底层 ， 里 面 实 现 了 大 量 的 抽象 接口 类 ， 即 FigureCanvas、Renderer 
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和 Event 类 。 其 中 > FigureCanvas 类 扮演 绘画 底板 的 角 色 。 与 真实 的 绘画 类 比 , FigureCanvas 
就 像 是 绘画 用 的 纸 。Rengderer 类 实现 上 色 的 功能 ， 好 像 是 真实 绘画 中 使 用 的 刷子 。Event 类 处 
理 键盘 与 鼠标 动作 。 
这 个 层 还 可 以 和 用 户 界面 工具 箱 整 合 在 一 起 , 例如 Qt。 与 用 户 界 面 工具 箱 整 合 的 抽象 基 类 位 
于 matplotlib.backengd_bases。 这 个 类 可 以 为 不 同 的 用 户 界 面 工具 箱 派 生 专门 的 子 类 ， 如 
matplotlib.backends.backend_qgqt4aggo 

为 了 创建 一 个 图 形 , 后 端 层 提 供 了 标题 .字体 、 函 数 , 可 以 将 图 形 保 存 为 不 同 格式 , 包括 PDF、 
PNG 、PS 和 SVG 等 格式 。 


Renderer 类 提供 了 画图 接口 ， 可 以 在 画布 上 夯 出 图 形 。 









































7.1.2 matplotlib 的 画图 方法 


用 户 使 用 matplotlib 可 以 画 出 各 种 各 样 的 二 维 图 。 这 部 分 内 容 将 介绍 一 些 简 单 的 图 形 和 两 种 特 
殊 图 形 : 等 高 线 图 和 矢量 图 。 下 面 的 程序 画 了 一 个 线 图 ， 表 示 圆 的 半径 和 面积 的 对 应 关系 : 











import matplotlib.pyplot as plt 

# 半径 

次 党 家 开业 3 浊 的 汪汪 省 

# 圆 的 面积 

a= [7.06858, 12.56637, 38.48447, 50.26544, 95.03309, 113.09724] 
Blt. DLOt(E;.-8) 

plt.xlabel ('Radius') 

plt.ylabel('Area') 

plt.title('Area of Circle') 

plt.show!() 


下 面 的 程序 画 出 了 一 个 线 图 ， 其 中 有 两 种 不 同 的 线 ， 分 别 表示 正弦 曲线 和 余弦 曲线 。 通 常 ， 

类 型 的 图 形 都 是 用 来 做 比较 的 。 因 此 ，matplotlib 为 图 形 提供 了 不 同 的 颜色 、 线 形 和 标记 。 绘 
图 函数 的 第 三 个 参数 表示 线条 的 颜色 、 线 形 和 标记 。 第 一 个 字符 表示 颜色 ， 它 的 值 可 以 是 pb、g、 
r、c、m、y、k 和 w 中 的 任何 一 个 。 其 中 k 表 示 黑 色 (black )， 其 他 字母 的 含义 都 很 明显 。 第 二 个 
字符 表示 线条 的 形状 , 可 以 用 -、--、-. .和 :表示 。 这 些 符 号 分 别 表示 实 线 、 虚 线 、 点 划 线 和 点 
线 。 最 后 一 个 字符 表示 标记 ， 如 .、x、+、o 和 *。 






































import matplotlib.pyplot as plt 
var = arange(0.,100,0.2) 


Cos_var = Cos (var) 

sin Var = sinl(var) 

plt.plot (var,cos_var, 'b-*',label='cosine') 
plt.plot (var,sin var,'r-.',label='sine') 


plt.legend(loc='upper left') 
plt.xlabel ('xaxis') 
plt.ylabel ('yaxis') 
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plt.show!() 
在 这 个 图 形 中 ， 可 以 通过 xlim 或 ylim 函 数 设 置 x 轴 和 ) 轴 的 坐标 值 范围 。 你 可 以 在 倒数 第 二 
行 加 plot .ylim(-2,2) 看 看 效果 。 


下 面 的 程序 画 的 是 服从 正 态 分 布 的 直方 图 。 数 据 是 通过 正 态 分 布 函数 产生 的 : 
























































import matplotlib.pyplot as plt 

from numpy.random import normal 

sample_gauss = normal (size=530) 
plt.hist(sample _ gauss, bins=15) 
plt.title("Histogram Representing Gaussian Numbers") 
plt.xlabel ("Value") 

plt.ylabel ("Frequency") 

plt.show!() 


下 面 的 程序 画 的 是 等 高 线 图 ， 用 1inspace 函 数 生成 的 线性 空间 矢量 构成 : 











import matplotlib.pyplot as plt 
from numpy import * 

Xe LInepace(0L10.,5.40) 

y = linspace(1,8,30) 

(X,Y) = meshgrid (x,y) 

Fune Ss eXp(= (CC(X=25) TKD 4 (VSA) ERD/Ad) = :EXD (= ((X=7 SS) ) 4.) 
Contr = pltvecontour (XY finoc} 
plt.clabel (contr) 

plt.xlabel ("x") 

plt.ylabel ("y") 

plt.show!() 


下 面 的 程序 画 的 是 矢量 图 ， 同 样 是 用 1inspace 函 数 生成 的 线性 空间 矢量 构成 的 。 如 果 后 面 
要 重用 图 形 元 素 ， 可 以 把 它们 保存 为 变量 。 程 序 中 倒数 第 二 、 三 行 就 是 把 xlabe1 和 ylapel1 保 存 


为 变量 : 


import matplotlib.pyplot as plt 

from numpy import * 

x = linspace(0,15,11) 

y = linspace(0,10,13) 

(X,Y) = meshgrid (x,y) 

二 5 

TT 

main_ plot = plt.gquiver (X,Y,arrl,arr2,angles='xy',scale=1000,color='b') 

main _ plot_key = plt.gquiverkey (main plot,0,15,30,"30 m/s", 
coordinates='data',color='b') 

X1L = plt.xlabel ("x in (km)") 

yl = plt.ylabel("y in (km)") 

plt.show!() 


输出 结果 
画图 的 结果 可 以 输出 为 不 同 的 文件 格式 , 例如 图 片 、 PDF、PS 文 件 等 。 要 把 图 形 保存 为 文件 ， 
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有 两 种 方法 。 
口 第 一 种 也 是 比较 简单 的 方法 就 是 直接 在 屏幕 上 用 保存 按钮 ， 如 下 面 的 截图 所 示 。 








NANAANANANNaAA 


人 olel+lel 四 加 < [save | | 

















图 形 显 示 屏 幕 的 左下 角 有 许多 按钮 ， 最 右边 的 按钮 可 以 把 图 形 保存 为 图 片 文件 。 点 击 之 
后 ， 会 出 现 对 话 框 ， 提 示 你 选择 保存 的 格式 、 保 存 的 位 置 和 文件 名 称 。 


口 第 二 种 方法 是 在 plt . show () 方 法 运行 之 前 使 用 plt .savefig 方 法 。 还 可 以 设置 输出 文 
件 的 名 称 、 样 式 与 格式 。 


下 面 的 程序 把 多 个 图 形 保存 在 一 个 PDF 文件 的 不 同 页 面 中 , 同时 还 演示 了 把 图 形 保存 为 PNG 
文件 的 方法 : 


from matplotlib.backends.backend pdf import PdfPages 7 
import matplotlib.pyplot as plt 
import matplotlib as mpl 


from numpy .random import normal 
from numpy import * 











PDF 初 始 化 
pdf = mpl.backends.backend pdf.PdfPages ("output .pdf") 





第 一 幅 图 保存 到 PDF 第 一 页 

sample_gauss = normal (size=530) 

plt.hist(sample_ gauss, bins=15) 

plt.xlabel ("Value") 

plt.ylabel ("Frequency") 

plt.title("Histogram Representing Gaussian Numbers") 
pdf.savefig() 

plt.close() 


各 





# 创建 第 二 幅 图， 保存 到 PDF 第 二 页 
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Var = arange(0.,100,0.2) 

Cos_var = Cos (Var) 

sin var = sin(var) 

plt.legend(loc='upper left') 

plt .xlabel ('xaxis') 

plt.ylabel ('yaxis') 

plt.plot (var,cos_var, 'b-*',1label='cosine') 
plt.plot (var,sin var,'r-.',label='sine') 
pdf.savefig() 

pdf.close() 

plt.close() 





# 输出 PNG 文 件 

YY Ss Dr M0 SS GEO] 

a= [7.06858, 12.56637, 38.48447, 50.26544, 95.03309, 113.09724] 
Slt plot 人 te. HH) 

plt.xlabel ('Radius') 

plt.ylabel('Area') 

plt.title('Area of Circle') 

plt.savefig("sample_output .png") 

plt.show!() 


7.2 ” pandas 程序 库 


pandas 程 序 库 的 工具 适合 完成 高 性 能 数据 分 析 任务 。 这 个 程序 库 同 时 适用 于 商务 与 科学 领 
域 。“pandas” 是 计量 经 济 学 的 “面板 数据 ”( panel data ) 和 “了 Python 数据 分 析 ”( data analysis ) 
的 英文 缩写 。 数 据 分 析 和 数据 处 理 的 五 个 步骤 是 加 载 、 准 备 、 操 作 、 建 模 和 分 析 。 


pandas 为 Python 数据 结构 增加 了 三 个 数据 类 型 ， 分 别 是 Series、DataFrame 和 Panel。 这 些 数据 
结构 都 是 在 NumPy 的 基础 上 建立 的 。 下 面 让 我 们 具体 看 看 每 种 数据 类 型 。 
































7.2.1 Series 





Series 是 一 维 对 象 ， 类 似 于 数组 、 列 表 或 表格 中 的 一 列 。 它 可 以 存储 任意 Python 数 据 类 型 ， 
包括 整 型 、 浮 点 型 、 字 符 串 以 及 任意 Python 对 象 。Series 的 每 个 项 目 还 有 一 个 标签 索引 。 默 认 情 
况 下 ， 索 引 从 0 到 N 表 示 N+1l 个 项 目 。 我 们 可 以 用 series 从 NumPy 数 组 或 Python 词典 (dict ) 创 
建 一 个 Series 对 象 。 同 时 ， 我 们 也 可 以 为 Series 的 数据 设置 对 应 的 索引 。 


让 我 们 用 一 个 简单 的 程序 来 演示 Series 数 据 结构 : 























import numpy as np 
randn = np.random.randn 
from pandas import * 


Series(randn( ro) Lndexst ii TE. SITET MT UV, VI SYED 
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S 
s.index 


Series (randn(10)) 


二 ep 这 人 
Series(d) 

Series(d, index=['e', 'i' 'O! oy 

# Series 用 标量 值 创 建 

Series(6., index=['a', 'e’', 'i', 'O', '! 
Series'([10;. 20, 30%,. 40], index=["'a", “"é 
Series({'a': 10, 'e': 20, 'i': 30}) 


s.get('VvI') 


# 可 以 设置 name 属 性 ， 定 义 Series 名 称 
S Series (np.random.randn(5), 


name='Ran 


7.2.2 DataFrame 


domSeries') 


pandas 的 二 维 数据 结构 叫 DataFrame。DataFrame 是 由 行 和 列 构成 的 数据 结构 ， 类 似 于 数据 库 


表 或 Excel 表 格 。 
与 Series 类 似 ，DataFrame 也 支持 不 同 的 输入 


口 一 维 NumPy 数 组 、 列 表 、 序 列 值 和 词典 ( 
口 二 维 NumPy 数 组 
口 一 个 结构 体 / 记 录 (structure/record ， 下 文书 
口 一 个 pandas 的 Series 或 DataFrame 对 象 











类 型 ， 


例如 : 


dict ) 的 词典 


元 组 列表 ) 的 NumPy 数 组 




















I 








虽然 索引 和 列 名 称 参 数 是 可 选 的 , 但 是 最 好 








称 可 以 看 成 是 列 标签 。 下 面 的 程序 首先 从 词典 ( gict ) 创建 DataFrame。 如 果 列 名 称 未 设置 ， 则 





使 用 排序 过 的 词典 键 作为 列 名 。 


然后 ， 通 过 和 N 维 数组 /列表 的 词典 ( aict ) 创建 DataFrame。 最 后 ， 


建 DataFrame: 


import numpy as np 
rangdn np.random.rangdn 
from pandas import * 


# 从 序列 字典 或 字典 生成 DataFrame 


它们 设置 一 下 。 索引 可 以 看 成 是 行 标签 ， 列 名 





UL 








用 结构 体 或 记录 的 数组 创 


全 SS "(EE EELeS (ELIOW, 20 30s Tidexs [EL.;, "TT HITT" 
"Seeond = ‘Series( [L020 2 "30. 7 40 inderxst Ey “IE y "TEL 
“村 

DataFrame(d, index=['IV', 'II', 'I']) 

DataFrame(d, index=['IV', 'II', 'I'], columns=['second', 'third']) 
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df = DataFrame (gd) 
df 

df.ingdex 
df.columns 


# 从 N 维 数组 字典 或 列表 字典 生成 DataFrame 


dE Tone [0 *20 5 .30 405 

"wo [0s B05 ZO TO 1} 
DataFrame (d) 
Datarrame (dy iidexs[ TT" "TEI .IITI'» "TVY]) 


# 结构 化 的 数组 或 记录 
data Ss MOVZeros( (Zr dtyoeat CT yy, 4 (TL TE4Y, CLLIT" “aLO"}]) 
dataly a (L0, 0 Very), (20n3 0 G00ds)] 


DataFrame (data) 





DataFrame (data, index=['first', 'second']) 
DataFrame (data, columns=['III', 'I', 'II']) 
7.2.3 Panel 





Panel 数 据 结构 可 以 存储 三 维 数据 。 这 个 名 称 源 自 统 计 学 和 计量 经 济 学 ， 里面 的 多 维 数据 经 
常 有 多 个 时 间 周 期 。 通 常 ，Panel 包 括 同 一 个 组 织 或 人 的 多 个 时 间 周 期 的 多 项 数据 。 


Panel 数 据 结 构 有 三 个 组 成 部 分 一 一 项 目 ( item )、 主 轴 (major axis ) 和 次 轴 (minor axis )， 
解释 如 下 。 


口 items: 指 的 是 Panel 里 每 个 DataFrame 的 数据 项 。 
口 major axis: 指 的 是 每 个 DataFrame 的 索引 ( 行 标签 )。 
口 minor axis: 指 的 是 每 个 DataFrame 的 列 。 


下 面 的 程序 演示 了 创建 Panel 的 不 同方 法 : 项 目 选择 /索引 ， 数 据 压 缩 ， 转 换 成 多 层 索 引 的 
DataFrame。 程 序 的 最 后 两 行 是 利用 to_frame 方 法 把 Panel 转 换 成 DataFrame: 





























import numpy as np 
randn = np.random.randn 
from pandas import * 


# 通过 带 标签 的 三 维 数组 创建 Panel 


workpanel = Panel (randn(2, 3, 5), items=['FirstItem', 'SecondItem'], 
major_axis=date_range('1/1/2010', periods=3), 
ninor Laxieset A "Br 0 Dy “EY]) 

workpanel 


# 通过 值 是 DataFrame 的 Python 字 典 创建 Panel 

data = {'FirstIitem' : DataFrame (randn(4, 3)), 
'SecondItem' : DataFrame (randn(4, 2))} 

Panel (data) 
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数据 结构 之 间 具 有 共同 的 属 公 


# orient=minor 表 示 用 DataFrame 的 列 名 作为 Panel 的 item (项 ) 


Panel.from dict(data, orient='minor') 


df = DataFrame({'x': ['one', 'two', 'three' 
df 
data = {'firstitem': df, 'seconditem': df} 
panel = Panel.from dict(data, orient='minor') 
panel['x' 
panel['y' 
panel[l'y'] .dtypes 

选择 Panel 的 某 一 项 
workpanel['FirstItem'] 





对 Panel 进 行 转 置 操作 ， 有 C(3,2) 即 6 种 组 合 方式 


workpanel.transpose(2, 0, 1) 





从 major_axis 标 签 获取 一 个 切片 
workpanel .major_xs (workpanel .major_axis[1]) 


workpanel .minor_axis 
# 从 minor_axis 标 签 获取 一 个 切片 
workpanel .minor_xs('D') 





'four'],'y': np.random.randn (4)}) 


# 夭 Wt hl 与 workpanel['FirstItem'] 和 





# workpanel['FirstItem'] ['B'] 类似 

workpanel .reindex (items=['FirstItem']).squeeze() 

workpanel .reindex(items=['FirstItem'],minor=['B']).squeeze() 
forconversionpanel = Panel (randn(2, 4, 5), items=['FirstItem', 'SecondItem'], 


major_axis=date_range('1/1/2010', periods=4), 


minor_axis=['A', 'B', 'C', 


forconversionpanel .to_frame () 


7.2.4 pandas 数据 结构 的 常用 函数 


D', Ev]Y 





这 些 数据 结构 有 一 些 共同 的 功能 。 这些 功能 在 每 个 数据 结构 上 都 会 实现 同样 的 操作 。 不 同 的 








import numpy as np 
randn = np.random.randn 
from pandas import * 


index = date_range('1/1/2000', periods=10) 


Ss :Series(Ftandn (io) irdex=s["I"y II", "TEI", 
YTTL TX 
df = DataFrame (randn(10, 4), index=['I', 'II', 


VE VEL Xn EOLUMISE LA 


EE。 下面 的 程序 展示 pad 数据 结 机 的 常用 功能 /操作 和 属性 : 


和 
i 
BB" "er DD"]) 
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workpanel = Panel (randn(2, 3, 5), items=['FirstItem', 'SecondItem'], 
major_axis=date_range('1/1/2010', periods=3), 
inor dx A TB CL /ED 


series withli00elements = Series (rangdn(100)) 


series_ withl00elements.head() 
series withli00elements.tail(3) 


series_withi00elements[:3] 
df[:2] 
workpanel[:2] 


df.columns = [x.lower() for x in df.columns] 
df 


# 利用 values 属 性 可 以 获取 数值 
s.values 
df .values 
wp.values 


有 一 些 功能 /属性 只 能 用 于 Series 和 DataFrame。 下 面 的 程序 将 演示 这 些 功 能 /属性 ， 包 括 描述 
性 统计 函数 aescribe、 最 大 /最 小 索引 (iaxmin/idqxmax )、 按 照 行 / 列 标签 或 数值 排序 、 对 象 功 
能 转换 、 数 值 类 型 属性 ( gtypes )， 等 等 : 








import numpy as np 
randn = np.random.randn 
from pandas import * 


# 描述 性 统计 describe 呢 数 
series = Series (randn(440)) 
series[20:440] = np.nan 
series[10:20] = 5 
series.nunique() 

series = Series (randn(1700)) 
series[::3] = np.nan 
series.describe() 


frame = DataFrame (randn(1200, 5), columns=['a', 'e', 'i', 'o', 'u']) 
frame.ix[::3] = np.nan 
frame.describe() 


series.describe(percentiles=[.05, .25, .75, .95]) 
Sr Ories(t[ x, VR ND Lp RR a 
s.describe() 


frame = DataFrame({'x': ['Y', 'Yes', 'Yes', 'N', 'No', 'No'], 'y': 
range (6)}) 
frame.describe() 
frame.describe(include=['object']) 
frame.describe(include=['number']) 
frame.describe(include='all') 
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# 最 大 索引 与 最 小 索引 的 值 


= Series (ranqn(10) ) 


Wu 


1.idxmin(), sl1.idxmax() 


= DataFrame (randn(5,3), columns=['X','Y','2Z']) 


.idxmin (axis=0) 
1.idxmax (axis=1) 


Ooo0Q 
th Fh Fh 


f3 = DataFrame([1, 2, 2, 3, np.nan], columns=['X'], 
ndex=list('aeiou')) 

£3 

E31 Ln () 





QQ OO Pol 





按 标签 排序 和 按 数 值 排序 

unsorted df = df.reindex(index=['a', 'e', 'i', 'o'], 
COLUmssl 2X "MY. ) 

unsorted_df.sort_index() 

unsorted_df.sort_index(ascending=False) 

unsorted_df.sort_index(axis=1) 


df1 = DataFrame({'X':[5,3,4,4],'Y':[5,7,6,8],'2':[9,8,7,6]}) 
df1.sort_index (by='Y') 


df EX MY SB SOFt. Index(ys[ X,Y)]) 

SG, SLS Ry TE UB, MXKY "YXZ TD ZX. "ZOO "Vetr].y 
B13] -= Tp.nan 

s.order() 


s.order (na_position='first') 


# 将 目标 值 插入 既定 顺序 查找 包含 区 间 值 的 索引 
Ser = Serlies([4; 6€,-75..9]) 
ser.searchsorted([0, 5]) 
ser.searchsorted([1, 8]) 
ser.searchsorted([5, 10], side='right') 
ser.searchsorted([1, 8], side='left') 


([ 
([ 
([ 
([ 


= Series (np.random.permutation(17)) 


.order () 
.nsmallest (5) 
.nlargest (5) 


Wu nn nm 


# 对 多 维 索 引进 行 排序 
df1 Coumis. SMOLtCLIITNAeX from tures( [LR MX Cy (A)]) 
df1l.sort_index(by=('x','X')) 


# 查看 DataFrame 和 Series 的 数值 类 型 
dft = DataFrame (dict( I = np.random.rand(5), 
I 二; 
FEE, 2 Dummy y 
IV = Timestamp('19751008'), 
V = Series([1.6]*5) .astype('float32'), 
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VL TrUG:, 
VII = Series([2]*5,dtype='int8'), 
VIII = False)) 

dft 

dft.dtypes 

dft['III'] .dtype 

dft['II'] .dtype 


# 统计 每 种 数据 类 型 出 现 的 次 数 
dft.get_dtype_counts() 


df1l = DataFrame (randn(10, 2), columns = ['X', 'Y'], dtype = 'float32') 
df1 
Qf1 .Qtypes 


df2 = DataFrame(dqict( X = Series(randn(10)), 

Y = Series(randn(10),dtype='uint8'), 

2 = Series(np.array (randn (10),dtype='float16')) 
) ) 

df2 


df2.dtypes 


# 转换 DataFrame 和 Series 的 数据 类 型 

(eh 

oh en i 
df3.convert_objects (convert_ numeric=True) .dtypes 


# 同上 ， 但 是 转换 为 指定 数据 类 型 


df3['D'] = df3['D'] .astype('float16') 
df3['E'] = df3['E'] .astype('int32') 
df3.dtypes 


s = Series([datetime(2001,1,1,0,0), 
'foo', 1.0, 1, Timestamp('20010104'), 
80800105 ,tyDese OO 

S 

s.convert_objects (convert_dates='coerce') 


实现 迭代 操作 非常 简单 ， 每 种 数据 结构 都 是 同样 的 方式 。Series 数 据 结 构 的 数据 操作 有 一 个 
存 取 器 。 下 面 的 程序 演示 了 这 些 概念 : 





import numpy as np 
randn = np.random.randn 
from pandas import * 


workpanel = Panel (randn(2, 3, 5), items=['FirstItem', 'SecondItem'], 
major_axis=date_range('1/1/2010', periods=3), 
nner avieel A Yy "Br, SO MD “El) 
df = DataFrame({'one-1' : Series(randn(3), index=['a', 'b', 'c']), 
'two-2' : Series(randn(4), index=['a', 'b', 'c','d']), 
'three=-3"": Series (randn(3),,, Tndex=["b , "6, qd."])}) 


for columns in df: 
print (columns) 
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for items, frames in workpanel.iteritems(): 
print (items) 
print (frames) 


for r_index, rows in df2.iterrows(): 


[es) 


print ('%Ss\n%s' % (r_index, rows)) 


df2: .= Datarrame ({R Ys [Ly 2% 33 i 5 “Yr: ,16, 7, 8 9 101}) 

print (df2) 

print (df2.T) 

df2_t = DataFrame (dict ((index,vals) for index, vals in df2.iterrows())) 


DELnt(olE22t 


df. iter = DataFrarne([[l; 2.0,; 3]], ‘colunmns=[x", yy "Zz"].) 
row = next (df_iter.iterrows())1[1] 


print (row['x'] .dtype) 
print (df_iter['x'] .dtype) 





for row in df2.itertuples(): 
print (row) 


用 dt 存 取 器 处 理 时 间 
= Series(date _ range('20150509 01:02:03',periods=5)) 


# 

S 

S 
s.dt.hour 
s.dt.second 

s.dt.day 

s[s.dt.day==2] 

# 时 区 转换 也 非常 方便 

stimezone = s.dt.tz_localize('US/Eastern') 
stimezone 

stimezone.dt.tz 

s.dt.tz_localize('UTC') .dt.tz_convert ('US/Eastern') 





周期 
= Series (period range('20150509',periods=5,freq='D')) 


.dt .year 
.dt .day 


mn mn mn 埋 


时 间 间 隧 
= Series (timedelta range('1 day 00:00:05',periods=4,freq='s')) 


ret 0ars 


.dt .seconds 
.dt .components 


pandas 提 供 了 大 量 的 方法 来 实现 描述 性 统计 量 的 计算 ， 此 外 还 有 聚合 函数 ， 如 计数 、 求 和 、 


mnnn mn 埋 
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最 小 值 、 最 大 值 、 均 值 、 中 位 数 、 众 数 、 标 准 偏差 、 方 差 、 偏 度 、 峰 度 、 分 位 数 、 累 计 求 和 等 


下 面 的 程序 演示 了 Series 、DataFrame 和 Panel 数 据 结构 如 何 使 用 这 些 函 数 。 这 些 方法 都 有 一 个 


可 选 参数 skipna， 可 以 在 统计 时 忽略 缺失 数据 ( NaN )。 该 参数 的 初始 值 为 True。 


import numpy as np 
randn = np.random.randn 
from pandas import * 


df = DataFrame({'one-1' : Series(randn(3), index= 
‘a 


'two-2' : Series(randn(4), index=[ 
'three-3' : Series(randn(3), index=['"' 


~ 


， Skipna=False) 
df.mean (axis=1, skipna=True) 
df.sum(0) 

df.sum(axis=1) 

df.sum(0, skipna=False) 
df.sum(axis=1, skipna=True) 


# NumPy 的 mean 不 统计 缺失 值 
npb .mean(dqf['one-1']) 
np.mean (df['one-1'] .values) 


ser = Series (rangdn(10)) 
ser.pct_change (periods=3) 


# 指定 周期 的 
df = DataFrame (randn (8, 4)) 
df.pct_change (periods=2) 


serl = Series (rangdn(530)) 
ser2 = Series (rangdn(530)) 
serl.cov (ser2) 


frame = DataFrame (randn(530, 5), columns=['i', 
frame.cov() 

frame = DataFrame (randn(26, 3), columns=['x', 
frame.ix[:8, 'i'] = np.nan 

frame.ix[8:12, 'ii'] = np.nan 

frame.cov () 

frame.cov (min periods=10) 

frame = DataFrame (randn(530, 5), columns=['i', 
frame.ix[::4] = np.nan 


# 用 Pearson 方 法 (默认 方法 ) 计算 标准 相关 系数 
frame['i'] .corr(frame['ii']) 

# 也 可 以 指定 用 Kendall 方 法 和 Spearman 方 法 

frame['i'] .corr(frame['ii'], method='kendall') 
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frame['i'] .corr(frame['ii'], method='spearman') 

inde en I 

COLUns 3 [ TfL: SECOnd..y:. "thisdr] 

df1l = DataFrame (randn(4, 3), index=index, columns=columns) 


df2 = DataFrame (randn(3, 3), index=index[:3], columns=columns) 
df1 .corrwith (df2) 
df2.corrwith(df1, 1) 


s = Series(np.random.randn(10), index=list('abcdefghij')) 


s['d'] = s['b'] # 单个 元 素 复制 操作 





s.rank() 

df = DataFrame (np.random.randn(8, 5)) 

Gf[4] = df[2][:5] # 多 个 元 素 (第 三 列 前 五 个 元 素 ) 复制 操作 ， 缺 失 位 置 用 NaN 
df 

df.rank(1) 


7.2.5 时间 序 列 与 日 期 函数 
pandas 提 供 了 丰富 的 时 间 序 列 与 日 期 操作 函数 ， 可 以 实现 时 间 和 日 期 相关 的 计算 。 
pandas 通 过 Trimestamp 数 据 类 型 , 可 以 获得 大 量 的 时 间 和 日 期 属性 , 其 中 部 分 属性 如 下 所 示 。 

















口 year: 年 。 
口 month: 月 。 
口 day: 日 。 


口 hour: 小 时 。 

口 minute: 分 钟 。 

口 second: 秒 。 

口 microsecond: 微 秒 ， 百 万 分 之 一 秒 。 

口 nanosecond: 纳 秒 ,十 亿 分 之 一 秒 。 

口 date: 日 期 。 

口 time: 时 间 。 

口 dayofyear: 天 数 ， 范 围 1-365/366 ( 疼 年 )。 

口 weekofyear: 周 数 。 

口 daayofweek: 星期 几 ， 周 一 用 0 表示 ， 周 日 用 6 表示 。 
口 quarter: 季度 , 一 月 到 三 月 用 1 表示 ， 四 月 到 六 月 用 2 表示 ， 以 此 类 推 。 


下 面 的 程序 演示 了 这 些 函 数 的 用 法 : 




















Import numpy as np 

randn = np.random.randn 

from pandas import * 

# 创建 日 期 区 间 ， 从 06/03/2015 开 始 152 个 小 时 
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range_date = qate_range('6/3/2015'，Pperiodqs=152，freq='H') 
range_datel[:5] 


# 时 间作 为 索引 
ts = Series(randn(lenl(range date)), index=range_date) 
ts.head() 


# 把 索引 值 的 频率 更 新 为 40 分 钟 

Converted = ts.asfreq('40Min', method='pad') 

converted.head() 

ts.resample('D', how='mean') 

dates = [datetime(2015, 6, 10), datetime(2015, 6, 11), datetime(2015, 
ts = Series (np.random.randn(3), dates) 

type (ts.index) 


上 三 

# 创建 周期 索引 

periods = PeriodqIndqex( [Period('2015-10')，Periodq('2015-11')， 
Period(*20E5<12”)]) 

ts = Series (np.random.randn(3), periods) 

type (ts.index) 

ts 

# 转换 时 间 稚 

to_ datetime(Series(['Jul 31，2014'，'2015-01-08'，None])) 


to_datetime(['1995/10/31', '2005.11.30']) 

# 日 期 数值 如 果 按 照 月 -日 -年 的 形式 ,就 用 dayfirst=True 
to_datetime(['01-01-2015 11:30'], dayfirst=True) 
to_datetime(['14-03-2007', '03-14-2007'], dayfirst=True) 
# 如 果 日 期 数值 中 有 无 效 值 ， 则 用 coerce=True 转 换 成 NaT 

to_ datetime(['2012-07-11', 'xyz']) 

to datetime(['2012-07-11', 'xyz'], Coerce=True) 


# 混合 数据 类 型 无 法 正确 处 理 

to_ datetime([1, '1'] 

# 纪元 时 间 鹤 (Epoch timestamp : 整 型 与 浮 点 型 纪元 时 间 惟 可 以 转换 成 标准 时 间 惟 
# 默认 使 用 纳 秒 ， 可 以 转换 成 秒 与 微 秒 

# 初始 时 间 是 01/01/1970 

to _ datetime([1449720105, 1449806505, 1449892905,， 

1449979305, 1450065705], unit='s') 











to_dqatetime([1349720105100，1349720105200，1349720105300， 
1349720105400，1349720105500 ]，unit='ms') 
to_datetime([8]) 
to_ datetime([8, 4.41], unit='s') 




















# 取 一 定 范围 的 日 期 

dates = [datetime(2015, 4, 10), datetime(2015, 4, 11), datetime(2015, 
| 

index = DatetimeIndex(dates) 


index = Index(dates) 

index = date_range('2010-1-1', periods=1700, freq='M') 
index 

index = bdate_range('2014-10-1', periods=250) 


6， 


12) ] 
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index 


start = datetime(2005, 1, 1) 

end = datetime(2015, 1, 1) 
rangel = date range(start, end) 
rangel 

range2 = bdate_ range(start, end) 
range2 


日 期 信息 也 可 以 作为 pandas 数 据 结构 的 索引 使 用 。 下 面 的 程序 演示 了 用 日 期 做 索引 ， 里 面 还 
使 用 了 Dateoffset 对 象 : 





import numpy as np 

randn = np.random.randn 

from pandas import * 

from pandas.tseries.offsets import * 


start = datetime(2005, 1, 1) 

end = datetime(2015, 1, 1) 

rng = date_range(start, end, freq='BM') 
ts = Series(randn(len(rng)), index=rng) 
ts.index 

ts[:8] .index 

te 1ndex 


可 以 直接 用 日 期 和 字符 囊 作 为 索引 
CS "S320L2] 
ts[datetime(2012, 07, 11):] 
tat"L008/2005" 12/31/2014"] 




















ts['2012'] 
CS "2Z0L2=Y*] 
dft = DataFrame (randn(50000,1),columns=['X'],index=date_ range('20050101', 
periods=50000,freq='T')) 
dft 
从 第 一 个 参数 里 月 份 的 最 早 时 间 到 最 后 一 个 参数 里 月 份 的 最 晚 时 间 
Git 2005 LZ0L3=4" ] 
ft [2005-1t323005=323 和 4 
可 以 指定 停止 时 间 
dftE"20053T0: 2005=3=31 :0000500 
dft [2009313E7. 2005=51=17 0533000"] 
日 期 索引 
dft[datetime(2005, 1, 1):datetime(2005,3,31)] 
dft[ldatetime(2005, 1, 1, 01, 02, 0):datetime(2005, 3, 31, 01, 02, 0)] 
用 loc 选 择 一 行 数据 
dft P68"200531=17 “05530:00" 
截取 一 段 时 间 





ts.truncate(before='1/1/2010', after='12/31/2012') 
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7.2.6 ”处 理 缺 失 数据 


缺失 数据 是 指数 据 为 空 ( null ) 或 没 显 示 。 通 常用 Na* 表 示 缺 失 数 据 ， 这 里 的 * 表 示 数 值 类 
型 ， 比 如 表示 缺失 数值 (NaN )，T 表 示 缺 失 时 间 值 (NaT )。 下 面 的 程序 演示 了 pandas 检 查 缺 失 
数据 的 函数 isnu11 和 notnul11, 用 fillna、dropna、rloc、iloc 和 interpolate 填 补缺 失 数 
据 。 如 果 对 NaN 对 象 执行 任何 操作 ， 结 果 仍 为 NaN: 


import numpy as np 
randn = np.random.randn 
from pandas import * 




















df‘Es. DataFrame (randn(8. Md). Tndexal Ly TL TLE TV “SVL 
EL TL EE. TE hy 
Colmnss[ LA BL, SSCL, LD]) 

df['E'] = 'Dummy' 

dfLREY EIA S05 


# 通过 增加 索引 来 引入 缺失 值 


df2. = OF ,Telndex( Le VEE SIE SIV VE VED; VLEET, MVEEL 
‘Tx, 1X1]) 

df2 

df2['A'] 


# 检查 是 否 存在 缺失 值 
isnull (df2['A']) 
df2['D'] .notnull() 


dE3 Sd .oopYy() 
df3['timestamp'] = Timestamp('20120711') 
df3 


# 把 Limestamp 列 缺失 值 设置 为 NaT 
dE3 证 Amestamp vl] Snan 
df3 


s = Series([5,6,7,8,9]) 


s.loc[0] = None 

S 

s a Series(t[ "aA", Pa bi 人 my 0 
s.loc[0] = None 

Sloo[ll' se He nan 

S 


# 用 fillna 方 法 填充 缺失 值 

df2 

df2.fillna(0) # 填充 索引 缺失 值 为 0 

df2['D'] .fillna('missing') # 为 某 一 列 填充 缺失 值 


df2.fillna(method='pad') 
df2 
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df2.fillna (method='pad', limit=1) 


df2 .dropna (axis=0) 
df2 .dropna (axis=1) 


ts = Series (randn (30)) 
ts.count() 
ts[10:30]=None 
ts.count() 

利用 插值 方法 填充 缺失 值 
默认 使 用 线性 插值 
ts.interpolate() 
ts.interpolate() .count() 





7.3 ”1/O 操作 


pandas 的 IO API 是 一 组 返回 pandas 对 象 的 reagd_ 陈 数 。 通 过 这 些 也 数 非常 方便 加 载 数 据 。 能 
够 载 人 pandas 数 据 结 构 的 数据 格式 很 多 ,包括 CSV、Excel、HDF、SQL、 JSON、HTML、Google 
Big Query、pickle 、stats 格 式 ， 其 至 烙 贴 板 。 其 中 一 些 读 取 函 数 的 名 称 ( 一 个 函数 读 取 一 种 文件 
格式 ) 是 read_csv、read_excel、read_hdf 、read_sql、read_json。 加 载 之 后 ， 数 据 就 
可 以 分 析 了 。 这 些 函 数 也 支持 异常 检测 、 数 据 标准 化 、 编 组 、 转 换 和 排序 。 























7.3.1 处 理 CSV 文 件 


下 面 的 程序 演示 pandas 读 取 CSV 文 件 ， 并 进行 各 种 操作 。 这 里 使 用 的 是 Book-Crossing 数 据 集 
的 CSV 格 式 ， 可 以 在 http:/www2.informatik.uni-freiburg.de/~cziegler/BX/ 下 载 。 这 个 数据 集 里 包括 
三 个 CSV 文 件 (BX-Books.csv、BX-Users.csv 和 BX-Book-Ratings.csv )， 里 面包 括 书籍 、 读 者 和 读 
者 评分 。pandas 读 取 CSV 文 件 名 有 两 种 方法 : 一 是 在 任意 文件 夹 里 使 用 CSV 的 绝对 路 径 ， 二 是 在 
CSV 的 同一 个 文件 夹 里 直接 使 用 文件 名 。 下 面 的 程序 是 在 Windows 系 统 里 使 用 文件 的 绝对 路 径 : 















































Import numpy as np 
randn = np.random.randn 
from pandas import * 


user_columns = ['User-ID', 'Location', 'Age'] 

users = read_ csv('c:\BX-Users.csv', sep=';', names=user_columns) 

rating_columns = ['User-ID', 'ISBN', 'Rating'] 

ratings = read csv('c:\BX-Book-Ratings.csv', sep=';', names=rating_ columns) 

book_columns = ['ISBN', 'Book-Title', 'Book-Author', 'Year-Of- \ 
Publication', 'Publisher', 'Image-URL-S'] 

books = read_csv('c:\BX-Books.csv', sep=';', names=book_columns, 


usecols=range (6)) 
books 
books.dtypes 
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users.describe() 





print books.head(10) 

print books.tail(8) 

print books[5:10] 

users['Location'] .head() 

print users[['Age', 'Location']].head!() 

desired_ columns = ['User-ID', 'Age'] 

print users[ldesired columns] .head() 

print users[users.Age > 25] .head(4) 

print users[ (users.Age < 50) & (users.Location == 'chicago, illinois,\ 
usa')] .head(4) 

print users.set_indqex('User-ID') .head() 

print users.head() 


with new_ index 





users.set_index('User-1ID') 


print with new_index.head() 
users.set_index('User_ID', inplace=True) 
print users.head() 

print users.ix[62] 

Drint "SersyiXlfll; O00 2Z004,] 
users.reset_index(inplace=True) 

print users.head() 





下 面 的 程序 演示 在 Book-Crossing 数 据 集 
寻找 最 大 的 z 个 数 以 及 数据 聚合 : 
import numpy as np 


rangn np.random.randn 
from pandas import * 


user_columns = ['User-ID'， 
users read_csv('c:\BX-Users.csv', 
rating_columns = ['User-ID', 'ISBN' 
ratings 


[SBN' 7 “TTC 

'Publisher', 
read_csv('c:\BX-Books.csv', 
usecols=range(6)) 


book_columns = 


books 


# 外 
boo 
users_ratings 


建 合并 的 DataFrame 
k_ratings merge (books, 
merge (book_ ratings, 





most_rated users_ratings.groupby ( 


'Location', 


read_csv('c:\BX-Book-Ratings.csv', 


'Book-Author', 
'Image- 


上 的 merge、groupby 和 相关 操作 ， 如 排序 、 分 类 、 


'Age'] 

sep=';', names=user_columns) 
'Rating'] 

Sep=';', 


" 


names=rating_columns) 


'Year-Of-Publication', 
URL-S'] 


sep=';', names=book_columns, 


ratings) 


users) 


'Title').size(). 


order (ascending=False)[:25] 


print most_rated 


7.3 LO 操作 143 





users_ratings.Title.value counts()[:17] 


book_stats = users_ratings.groupby ('Title') .agg({'Rating': [np.size, 
np.mean]}) 
print book_stats.head() 


# 按照 评分 等 级 Rating 与 均值 mean 排 序 
print pook_stats.sort([('Rating'，'mean')]，ascendqing=False) .head() 


greater_than 100 = book_stats['Rating'].size >= 100 
print pook_stats [greater_than_ 100].sort([('Rating'，'mean')]， 
ascending=False)[:15] 








top_fifty = users_ratings.groupby ('ISBN') .size().\ 
order (ascending=False)[:50] 


er/content/notebooks/data/city-of-chicago-salaries.csv?raw=true。 


| 下 面 处 理 CSV 文 件 的 程序 位 于 https://github.com/gjreda/gregreda.com/blob/ 
~— mast 


下 面 的 程序 演示 了 DataFrame 的 合并 与 连接 操作 : 


Import numpy as np 
randn = np.random.randn 
from pandas import * 


first_frame = DataFrame({'key': range(10), 


BA 
有 

Secondq_frame = DataFrame ({'key': range(2, 12), 
"ioht valuer se TY. SM yy VN "OV EY 
"OT RO OO ey 


print first_frame 
print second_ frame 





# 默认 合并 join 操作 (inner join) 

print merge(1Lleft_frame，Lright_frame，on='Kkey'，how='inner') 
# 其 他 合并 操作 (left, right,outer) 

print merge(left_frame, right_frame, on='key', how='left') 
merge(left_frame, right_frame, on='key', how='right') 
merge(left_frame, right_frame, on='key', how='outer') 


prin 
prin 








concat ([left_frame, right_framel]) 
concat ([left_frame, right_frame], axis=1) 


headers = ['name', 'title', 'department', 'salary'] 
chicago_details = read csv('c:\city-of-chicago-salaries.csv', 
header=False, 
names=headers, 
converters={'salary': lambda x: float (x.replace('$', ''))}) 
print chicago_detail.head() 
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dept_group = chicago_dqetail1ls.g9roupby('dqepartment ' ) 


print dept_group 


print dept_group.count().head(10) 
print dept_group.size().tail(10) 
print dept_group.sum()[10:17] 
print dept_group.mean()[10:17] 
print dept_group.median()[10:17] 


chicago_details.sort('salary', ascending=False, inplace=True) 


7.3.2” 即 开 即 用 数据 集 


pandas 程 序 里 还 有 一 些 经 济 学 数据 源 和 使 用 这 些 数 据 的 模块 。 我 们 可 以 用 pandas.io.data 和 
pandas.io.ga ( Google Analytics ) 模块 从 不 同 的 网 络 源 获取 数据 ， 并 加 载 为 DataFrame。 目 前 支持 
的 数据 源 如 下 。 


口 雅虎 财经 。 

D 谷歌 财经 。 

口 St. Louis Fed: 美联储 经 济 数据 ( federalreserve economic data，FRED ) 包含 了 80 源 数据 库 
的 267 000 多 份 经 济 时 间 序 列 数 据 。 

口 Kenneth French 的 数字 图 书馆 。 

口 世界 银行 。 

口 Google Analytics。 


下 面 的 小 程序 演示 了 从 不 同 的 数据 源 读 取 数 据 : 


























import pandas.io.data as web 
import datetime 


flil=web.DataReader ("F", 'yahoo', datetime.datetime(2010, 1, 1), 
datetime.datetime(2011, 12, 31)) 

f2=web.DataReader ("F", 'google', datetime.datetime(2010, 1, 1), 
datetime.datetime(2011, 12, 31)) 

f3=web.DataReader ("GDP", "fred", datetime.datetime(2010, 1, 1), 


datetime.datetime(2011, 12, 31)) 
fl T2000 :12 


pandas 画 图 功能 


pandas 数 据 结构 通过 封装 plt .plot () 文 持 画 图 功能 。 默 认 情 况 下 ， 夯 的 图 都 是 线 图 ， 可 以 
通过 修改 画图 函数 的 kingd 属 性 改变 图 形 的 样式 。adf .plot () 不同 图 形 的 样式 的 参数 如 下 所 示 。 


























加 





口 条 形 图 : af .plot (kind='bar') 
口 直方 图 : df.plot (kind='hist') 
口 箱 体 图 : af.plot (kingd='box') 
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口 面积 图 : df.plot (kind='area') 
口 散 点 图 : df.plot (kind='scatter') 
口 饼 图 : df.plot (kind='pie') 


下 面 的 程序 演示 了 一 个 简单 的 pandas 画 图 方法 。 程 序 的 输出 结果 如 下 面 的 堆 图 所 示 。 








from pandas import * 
randn = np.random.randn 
import matplotlib.pyplot as plt 

















Xl = marray(t (L279) (ly di6)3. (2 dy 3) 1) 
df = Dataprvanme (kL 1ndex=s[ "Ts “TE SITET “COLlUmess[L A "By “Cr 
df = df.cumsum() 
df.plot (kind='pie', subplots=True) 
plt.figure() 
plt.show!() 
7.4 IPython 


IPython 设 计 和 开发 的 初衷 是 要 增强 Python 命 令 行 工 具 的 功能 , 让 它 支 持 交 互 式 的 分 布 式 和 并 
行 计算 。IPython 的 工具 可 以 支持 许多 交互 性 科学 计算 需求 。 主 要 的 两 种 工具 如 下 : 


口 功能 增强 的 IPython 命 令 行 工 具 
口 交互 式 并 行 计算 架构 
这 一 节 主 要 介绍 IPython 的 交互 式 命令 行 工具 。 关于 交互 式 并 行 计算 的 内 容 , 将 在 第 8 章 介绍 。 





A 太 
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7.4.1 冬 端 与 系统 命令 行 工具 


IPython 的 终端 界面 如 下 图 所 示 。 
主题 , 如 Linux 和 LightBG。 IPython 的 重 
IPython 的 输出 
候 ， 交 互 式 的 编程 界面 如 下 所 示 。 


IPython 4 

















要 特征 之 一 是 





它 支 持 不 同 的 配色 主题 , 默认 的 主题 是 Nocolor, 还 有 划 
它 是 有 状态 的 , 就 是 说 它 会 保留 
吉 果 都 保存 在 _N 里 面 , N 是 输出 和 计算 结果 的 序号 。 当 我 们 进入 IPython 命 令 











他 
轨 计 算 过 程 。 
行 的 时 





IPython 3.0.0 -- An enhanced Interactive Python. 
? -> Introduction angd overview of IPython's features. 


Squickref -> Quick reference. 
help -> Python's own help system. 
object? -> Details about 'object', use 


如 果 我 们 像 普 一 样 输入 一 个 问号 (? )， 
地 ，s%quickref 会 2 























通 命 令 





'object??' 


for extra details. 


就 会 显示 IPython 的 功能 列表 。 类 似 





令 的 简介 ，smagic 会 显示 IPython 魔 法 命令 的 具体 使 用 方法 。 











:\Users\Luv>ipython 


ou can find it at: 
Ihttp://ipython.org/pyreadline.html 


Defaulting color scheme to ’NoColor’ 
Python 2.7.9 Cdefault, Dec 19 20614. 
ype "copyright"。 A or "1icense" 
IPython 3.9.9 -- hn enhanced Interactive Python. 
-> Introduction and overview of IPython’s 
“quickref -> Quick reference. 
-> Python’s own help system. 
-> Details about 'ohbject'。use ’ohbject??’ 
Hi $4 
:8 


HE Ed 
: 56 


es 1 
: 64 


a > 
8 








Command Prompt - ipython 


JRNING: Readline services not available or not loaded. 
WARNING: Proper color support under MS Windows requires the pyreadline library. 


12:28:@3> [MSC v.1588 64 bit CAMD64>2] 
for more information. 
features. 


for extra details. 





-= 本 

















如 果 我 们 输入 任意 Python 对 象 后 加 问号 (objname? ), IPython 终 端 就 会 显示 这 个 对 象 的 文字 
说 明 、 功 能 以 及 构建 方法 ， 如 下 图 所 示 。 我 们 创建 了 pandas 的 一 个 DataFrame 对 象 4f ,然后 用 df? 








查看 它 的 属性 。 
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IPython 终 端 还 支持 UNIX 系 统 的 1s 等 命令 ， 




















Command Prompt - ipython 


: inport nunpy as 


: randn = np-.randon.randn 


: from pandas import x* 


randnC3>, index=[’a’ 
ndncC4 index=[’a’, ’b’ 
《randn(3>。 index [hb > 


three-3 two-2 
NaN 日 .225582 
-894493 日.3509297 
591984 -8.333@7?5 
-183187 -6869522 


c:\python27\1ib\site-packages\pandas\core\frane.py 
onal size-mutable, potentially heterogeneous 


cture with labeled ax Crow: nd columns). frithmeti 
align on both row and column labels. Can be th 


tabular data 
operations 
dict-like 

ucture 


resulting frane. Will default to np-arangecn》 if 
on part of input data and no index provided 
s : Index or array-like 
Column labels to use for resulting frame- Will default to 
i are provided 
» default None 
Data type to force, otherwise infer 
lcopy : boolean, default False 
Copy data from inputs. Only affects DataFrane / 2d ndarray input 
to 


mw 本 

















1. 操作 系统 命 
我 们 经 常 需要 


令 接 口 








大 请 有 
经 吊 


计算 。 用 户 可 以 通过 
要 在 命令 




















用 操作 系统 的 命令 辅助 进行 
昌 户 只 











何 操作 系统 命令 和 系统 脚本 文件 。 


前 面 加 一 个 感 


常用 命令 。 
， 相 可 以 执行 任 


命令 别名 速 


感叹 号 ! 











In [16]: cd videos 
C:\Users\Luv\videos 


In [17?]: ls 

Uolume in drive C i 
Uolume Serial Number is CQ@1B-A2A6 
Directory of C:\Users\Luv\videos 


<DIR> 
<DIR> 


1H8/69/20613 
NH8/89/2813 


19:48 PM 
19:48 PM 
@ FileCs» 
2 DirCs> 


0 bytes 
4.815.884.288 bytes 


[18]: cd .. 
\Users\Luv 


In [19]: tdir x.txt 
Uolume in drive C is 
Uolume Serial Number 


Os 
s CAO1B-A2A6 


Directory of CGC:\Users\Luv 
@1:85 AM 


1 Files> 
@ DirCs> 


229 Wah.txt 
229 hytes 
4.815.360.0860 bytes free 


@?7/03/2013 


In [2@]: 





在 IPython 命 令 行 中 执行 一 个 操作 系统 命令 





2. 无 阻塞 的 画图 功能 














在 Python 命令 行 里 创建 图 形 ， 然 后 用 show () 命令 显示 的 时 候 ， 








在 月 











户 关闭 





会 在 新 窗口 显示 图 形 ， 并 且 











图 形 窗口 之 前 ， 命 令 行 都 是 阻塞 状态 ， 不 可 继续 使 用 。 但 是 ，IPython 有 一 个 -pylab 


数据 分 析 与 可 视 化 




















标记 。 如 果 通 过 IPython -pylab 命 令 启动 IPython 命 令 
令 行 窗 口 ， 不 会 阻塞 命令 
不 会 阻 寨 命令 行 。 











$ 行 继续 运行 。 如 下 图 所 示 ， 当 使 用 IPython -pylap 命 


行 , 在 显示 图 形 时 ， 











令 时 ， 





| Command Prompt - ipython -pylab 


nv >ipyt hon 
“ flag 


pylab 
has been deprecated. 
and import pylab nanually. 


matplotlih <backend>* 


cheme to ’NoColor 


In [11: import matplotlib-pyplot as 


2.9- 4-9. 


: a= [7.96858. ,38.48447, 50.26544, 


plt.plotCr, a 


[<matplotlihb- Yine Line2D at Q@x5d16716>] 


: plt.xlabelC’Radius’> 
: natplotlib.text.Text at gxl 8> 


plt.ylabelC’Area’ > 
Cnatplotlib.text .Text at Bx5c746d8> 


plt .titleC’A 


plt-show(> 


In [91: 








7 Figure 1 oe 
Area of Circle 
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调试 


IPython 具 有 非常 














可 以 打印 变量 结果 ,执行 语句 ,追踪 异常 来 源 。 这 
外 部 调试 工具 


sdepbug 命 令 的 截图 如 下 所 示 。 








强大 的 程序 调试 以 及 错误 和 异常 追踪 功能 。 
过 sqebug 命 令 就 可 以 启动 Python 的 调试 器 (pdb ) 来 分 析 问 题 。 我 们 可 以 在 这 里 调试 ， 




















bPython 3.8.8 -- hn enhanced Interactive Python. 


uickres -> Quick reference. 
Ihe 1p -> Python’s own help system. 
ohject? -> Details about ’object’, use 


In [1]: 


In [1]: xzrun testdebug.py oa 一 
Fil 


\Users\Luv\testdebug.py". 1 
x2d[@:4.8:3] 


SyntaxError: invalid syntax 


In [2]: xdebug 
> c:\python27\1ib\site-packag. 
266 compiler 


execcompilerscripttext, 


bt cont 


enable 
continue i 
Q 


exit 
h 


c 
cl 

clear 
commands 
condition 


dehug help 
disable ignore 
break down j 
IMiscellaneous help to 

lexec pdb 


ndocumented command 





-> Introduction and overview of IPython’s 


object??’ 


psource 


restart 


Et 





features. 


r extra details. 


\ipyt hon\utils\py3compat -py(297?execfile(》 
compiler or compile 
filenane, 


'’exec’), globh, loc» 


run 


step 
threak 

whatis 
where 


u 
eturn unalias 


当 我 们 运行 脚本 之 后 ， 
为 我 们 


这 个 功能 可 以 让 用 户 轻 松 调试 ,不 需要 借助 其 他 





图 形 会 直接 出 现在 命 
图 形 显示 


所 


J 














起 
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用 户 可 以 通过 srun -qd programmname.py 命 令 单 步调 试 程序 ， 如 下 图 所 示 。 eel 
stepbystep.py 文 件 进 行 单 步调 试 。 在 每 一 行 , 调 速 吉 都 会 提醒 用 户 输入 c 确 认 继续 调试 下 一 行 代 码 。 























画 Command Prompt - ipython -pylab 





站 Normal distribution (1 =0,c =1) 
pylab manually- T 
availa or not loaded. 
pport under MS Windows requires the pyreadline library. 
yreadline .htnl 
cheme to :NoColor” 
5998 64 pbit 《hnhMD64?] 


hn enhanced Interactive 、 nN. 
ntroduction d overview hon’s features. 


”for extra detai 








ne execution. 








p- 
import matplotl1i 
2 from nunpy import x 














7.4.2 IPython Notebook 


IPython 的 网 页 版 应 用 叫 Notebook。 设计 和 开发 它 的 目的 , 是 让 用 户 可 以 通过 网 页 丰富 的 展现 
形式 体验 交互 式 计算 ,可 以 编写 解释 概念 的 文字 、 数 学 公式 、 计 算 程序 代码 并 输出 图 形 。 程序 的 
输入 和 输出 可 以 根据 需要 放 在 不 同 的 单元 中 。 


下 图 取 自 http://ipython.org/notebook.html， 演 示 了 IPython Notebook 的 功能 。 

















Ipy IPython Dashboard %) Py spectrogram 





[© 1270010 radab ac -b212-4732cTBF78 


IPr[y: Notebook spectrogram Lastsaved: Mar 07 11:14 PM 


Edit View Insert Cell Kernel Help 





TT | [Markdoun v 





Simple spectral analysis 


An illustration of the Discrete Fourier Transform 


using windowing, to reveal the frequency content of a sound signal. 


We begin by loading a datafile using SciPys audio fie support 


In [1]: from scipy.io import wavfile 
rate, x = wavfile.read('test_mono.wav') 


And we can easily view its spectral structure using matplotib's builtin specgram routine: 
In [2]: fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4)) 
ax1.plot (x); axl.set title('Raw audio signal') 


ax2. specgram(x); ax2.set_title('Spectrogram’ ); 


Raw audio signal Spectrogram 
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7.5 ”小结 


这 一 章 首先 介绍 了 matplotlib 的 基本 概念 和 组 成 部 分 ， 然 后 通过 一 些小 程序 演示 了 不 同 图 形 
的 制作 方法 。 此 外 还 介绍 了 将 图 形 保存 为 不 同 格式 的 方法 ， 以 及 用 pandas 进 行 数据 分 析 的 方法 。 


与 此 同时 ， 我 们 还 介绍 了 pandas 的 数据 结构 。 通 过 对 pandas 数 据 结构 的 详细 介绍 ， 你 可 以 掌 
握 许多 数据 分 析 的 技能 。 最 后 一 部 分 介绍 了 IPython 的 交互 式 编程 的 概念 、 用 法 和 网 页 应 用 IPython 
Notebook。 


下 一 章 将 对 Python 科学 计算 中 的 并 行 与 高 性 能 计算 进行 全 面 的 介绍 。 首先 将 会 介绍 并 行 与 高 
性 能 计算 的 基本 概念 以 及 现 有 的 框架 和 技术 等 , 然后 深入 介绍 Python 并 行 与 高 性 能 计算 框架 与 工 
具 的 用 法 。 












































第 8 章 


并 行 与 大 规模 科学 计算 











本 章 主要 介绍 在 Python 中 使 用 并 行 和 大 规模 计算 的 重要 概念 , 或 者 说 是 用 IPython 解 决 科 学 计 
算 问 题 , 还 会 介绍 大 规模 科学 计算 和 大 数据 处 理 的 发 展 趋势 。 本 章 通过 程序 示例 帮助 你 更 好 地 理 


本 章 将 介绍 的 主题 如 下 : 


口 IPython 并 行 计算 基础 

口 IPython 并 行 计算 的 组 成 部 分 
口 IPython 的 任务 接口 和 数据 库 
口 IPython 的 直接 运行 接口 

口 IPython 并 行 计算 详 述 

口 IPython 的 MPI 编 程 
口 在 Python 中 使 用 Hadoop 和 Spark 进 行 大 数据 人 处理 


IPython 通 过 启动 多 个 进程 ， 让 用 户 使 用 并 行 计算 。IPython 的 第 一 个 进程 是 IPython 引 擎 ， 它 
是 一 个 Python 解释 器 ， 可 以 执行 用 户 提交 的 任务 。 用 户 可 以 启动 多 个 引擎 来 执行 并 行 计算 。 第 二 
个 进程 是 Python 集线器 , 它 监控 引擎 和 调度 器 , 跟踪 用 户 任务 的 状态 。 集 线 器 进程 监控 来 自 引擎 
和 客户 端的 注册 请 求 , 它 会 持续 地 监控 与 调度 器 关联 的 连接 。 第 三 个 进程 是 IPython 调 度 器 。 这 是 
一 组 进程 , 在 客户 端 和 引擎 之 间 传 送 命令 和 结果 。 通 常 ， 调 度 器 进程 在 已 运行 控制 器 进程 的 机 器 
上 ， 与 集线器 进程 连接 。 最 后 一 个 进程 是 IPython 客 户 端 ， 是 一 个 了 Python 会 话 ， 协 调 引 擎 完成 计 
算 任 务 。 


以 上 介绍 的 所 有 进程 组 合 起 来 称 为 IPython 集 群 。 这 些 进程 之 间 通 过 ZeroMQ 进 行 通 信 。 
ZeroMQ 支 持 多 种 通信 协议 ， 包 括 Infiband 、IPC、PGM 、TCP 等 。IPython 控 制 器 是 由 集线器 和 调 
度 器 构成 的 ， 通 过 网 络 套 接 字 ( socket ) 监听 客户 端 请 求 。 当 用 户 开 局 一 个 引擎 之 后 ， 它 会 连接 
一 个 集线器 并 完成 注册 。 集 线 器 首先 将 调度 器 连接 信息 传递 给 引擎 。 之 后 ， 引 擎 会 连接 调度 器 。 
这 些 连 接 会 在 一 个 引擎 的 整个 生命 周期 中 存在 。 每 个 也 ython 客 户 端 都 会 使 用 许多 socket 对 象 连接 
控制 器 。 通 常 ， 客 户 端 连 接 每 个 调度 器 用 一 个 连接 , 连接 每 个 集线器 用 三 个 连接 。 这 些 连 接 会 在 
客户 端的 生命 周期 中 持续 存在 。 
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8.1 


用 IPython 做 并 行 计 算 


IPython 可 以 让 用 户 以 交互 的 方式 完成 并 行 与 高 性 能 计算 。 可 以 用 IPython 自 带 的 并 行 计算 方 
由 上 面 四 个 部 分 (集线器 、 引 警 、 调 度 器 和 客户 端 ) 组 成 ， 能 满足 绝 大 多 数 并 行 需求 。 具 体 














说 来 ，IPython 支 持 以 下 四 类 并 行 方式 。 

















口 单程 序 ， 多 数据 并 行 (single program, multiple data parallelism，SPMD ): 这 是 最 常见 的 并 
行 编程 方式 , 属于 多 指令 多 数据 ( Multiple Instruction and Multiple Data，MIMD ) 的 子 集 
在 这 个 模型 中 ， 每 个 任务 会 单独 执行 同一 程序 的 复制 版 本 。 每 个 任务 处 理 不 同 的 数据 集 
以 实现 更 高 的 性 能 。 

口 多 程序 ， 多 数据 并 行 (multiple program, multiple data parallelism，MPMD ): 在 这 种 并 行 

方式 中 ， 每 个 任务 会 在 每 个 计算 节点 上 运行 不 同 的 程序 ， 处 理 不 同 的 数据 。 

口 使 用 消息 传递 接口 进行 通信 ( messagepassing using MPI ): 消息 传递 接口 (Message Passing 
Interface，MPI ) 是 开发 者 设计 消息 传递 程序 库 的 设计 规则 。 它 是 一 种 与 编程 语言 无 关 的 
设计 规则 ， 可 以 让 用 户 写 出 基于 消息 传递 的 并 行程 序 。 目 前 ， 它 支持 分 布 式 内 存 共享 模 
式 和 它们 的 混合 模式 。 

D 任务 并 行 : 任务 并 行 方式 是 在 不 同 的 计算 节点 之 间 分 配 任务 。 任 务 可 以 是 线程 ， 消 息 传 

递 的 组 成 部 分 ， 或 者 其 他 编程 模式 的 组 成 部 分 ， 例 如 MapReduce。 

口 数据 并 行 : 数据 并 行 方式 是 在 不 同 的 计算 节点 之 间 分 配 数据 。 数 据 并 行 与 任务 并 行 最 大 

的 区 别 在 于 ， 数 据 并 行 是 在 计算 节点 之 间 分 配 和 并 行 化 数据 。 

口 以 上 类 型 的 混合 模式 : IPython 也 支持 前 面 不 同 并 行 方式 的 混合 体 。 

口 用 户 自 定 义 的 并 行 方式 : IPython 被 设计 得 十 分 简单 灵活 ， 用 户 可 以 按照 自己 的 需求 定义 
新 的 并 行 方 式 。 

IPython 可 以 在 程序 整个 生命 周期 中 的 各 个 阶段 使 用 交互 式 并 行 , 例如 开发 、 运 行 、 调 试 与 监 
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IPython 配 合 matplotlib 可 以 让 用 户 分 析 并 可 视 化 远程 或 分 布 式 大 型 数据 库 。 也 支持 用 户 在 远 




















程 集群 计算 , 然后 将 数据 拉 回 本 机 再 进行 分 析 和 可 视 化 。 用 户 可 以 通过 IPython 客 户 端 将 一 个 MPI 
应 用 推送 到 高 




















Ts 


生 能 的 计算 机 上 。 它 还 可 以 对 运行 在 一 组 CPU 上 的 任务 进行 动态 的 负载 均衡 。 另 外 ， 











IPython 还 可 以 让 用 户 通 过 两 三 行 代码 就 写 出 一 个 简单 的 并 行程 序 。 用 户 可 以 交互 式 地 开发 .运行 、 
测试 、 调 试 自 定义 并 行程 序 。IPython 允 许 用 户 将 运行 在 不 同 计算 节点 上 的 MPI 资 源 , 组 合成 一 个 
较 大 的 分 布 式 /并 行 系统 。 


8.2 








IPython 并 行 计 算 架 构 
IPython 并 行 计算 架构 有 三 个 主要 组 成 部 分 。 这 些 组 成 部 分 是 了 Python 并 行程 序 包 的 部 件 。 
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IPython 并 行 计算 架构 如 下 图 所 示 。 














客户 端 ” ” 视 攻 
DirectView| LoadBalancedView 
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控制 器 






































IPython 并 行 计算 的 三 个 主要 部 分 是 客户 端 、 控 制 器 和 引擎 。 控 制 器 由 两 部 分 组 成 : 集线器 和 
调度 器 。 客 户 端 与 引擎 的 交互 可 以 通过 两 种 方式 实现 : 直接 运行 接口 和 负载 均衡 接口 。 








并 行 计 算 的 组 成 部 分 
IPython 并 行 计算 架构 的 组 件 和 内 容 将 在 下 面 介绍 。 这 些 组 件 包括 IPython 引 擎 、IPython 控 制 
器 〈 集线器 和 调度 器 )、IPython 客 户 端 与 IPython 视 图 。 
1. IPython 引 擎 
这 个 核心 组 件 以 网 络 请 求 的 形式 接受 要 执行 的 Python 代码 。 引 擎 是 一 个 普通 Python 解释 器 的 
实例 , 最 终 将 会 演变 成 一 个 功能 健全 的 IPython 解 释 器 。 用 户 可 以 通过 启动 多 个 引擎 来 实现 分 布 式 
计算 与 并 行 计算 。 用 户 输入 的 代码 在 IPython 中 以 阻 断 模式 运行 。 
2. IPython 控 制 器 
IPython 控 制 器 是 由 一 个 集线器 和 若干 个 调度 器 构成 的 。 卫 ython 控 制 器 绑 定 了 客户 端 与 引擎 
通信 的 多 个 进程 。 它 是 连接 运行 Python 进程 的 用 户 与 IPython 引 擎 的 枢纽 。 通 常情 况 下 ,调度 器 都 
是 运行 集线器 的 计算 机 上 的 独立 进程 。 有 时 ， 调 度 器 也 可 以 运行 在 远程 计算 机 上 。 
口 集线器 : 集线器 是 最 重要 的 组 件 。 它 会 持续 跟踪 调度 器 与 客户 端 以 及 与 引擎 的 连接 信息 。 
它 会 处 理 客户 端 与 引擎 的 所 有 连接 以 及 整个 网 络 的 通信 需求 。 它 还 会 用 数据 库 保存 所 有 
的 请 求 和 计算 结果 ， 以 备 后 面 的 程序 使 用 。 集 线 器 还 提供 了 查询 集群 状态 的 功能 ， 并 为 
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用 户 隐藏 客户 端 与 引擎 连接 的 大 量 细节 。 

口 调度 器 : 提交 给 引擎 处 理 的 Python 代码 ,都 是 通过 调度 器 传递 的 。 调 度 器 还 解决 了 引擎 执 
行 用 户 代 码 时 造成 的 阻塞 问题 。 调 度 器 为 用 户 隐藏 这 些 细节 ， 并 通过 完全 异步 的 连接 方 
式 连 接 IPython 引 擎 。 








3. IPython 视 图 与 接口 


控制 器 提供 了 两 种 接口 模式 与 引擎 通信 。 第 一 种 是 Direct ( 直接 运行 ) 接口 。 在 这 种 模式 
下 引擎 会 把 任务 直接 分 配 到 固定 地 址 运行 。 男 一 种 是 LoadBalanced (负载 均衡 ) 接口 ,适当 地 
分 配 任务 到 空闲 的 调度 器 。IPython 的 灵活 设计 可 以 让 我 们 对 视图 进行 扩展 , 以 实现 更 加 复杂 的 接 
口 机 制 。 

不 同 的 模式 连接 到 控制 器 时 ， 会 产生 一 个 view 对 象 。 两 种 模式 通过 控制 器 与 机 器 进行 交互 
的 方法 如 下 。 
口 DirectView 类 支持 直接 分 配 地 址 。 它 可 以 让 用 户 代码 在 所 有 引擎 上 运行 。 
口 LoadBalancedView 类 会 帮助 用 户 以 负载 均衡 的 方式 对 任务 进行 分 配 。 它 可 以 让 用 户 程 
六 运行 在 调度 器 指定 的 任意 一 个 引擎 上 。 








































































































4. IPython 客 户 端 

客户 端 是 一 种 用 于 连接 IPython 计 算 和 集群 的 对 象 。 创建 客户 端 对 象 的 时 候 , 用 户 可 以 选择 前 面 
介绍 的 任意 一 种 视图 。 一 旦 客户 端 创 建 之 后 ， 只 要 任务 在 运行 ， 它 就 会 一 直 存 在 。 当 客户 端 运行 
达到 规定 时 限 ， 或 者 用 户 通过 kil11 命 令 中 止 客户 端 进程 ， 它 就 会 被 销毁 。 


























8.3 并行 计算 示例 


下 面 的 例子 是 演示 IPython 并 行 计算 的 简单 程序 。 它 将 对 比 单 引 擎 与 多 引擎 并 行 计算 指数 函数 
( a 的 b 次 方 ) 的 效率 。 运 行 代码 之 前 ， 建 议 你 检查 一 下 zmq 软 件 包 是 否 已 经 安装 ， 它 是 必需 的 。 


要 在 IPython 里 启动 并 行程 序 ， 首先 需要 执行 ijpcluster start --n=4 --profile-= 
testprofile 命 令 。 首 先 需 要 在 /.ipython/profile_testprofile/security 目 录 下 创建 ipcontroller-engine. 
json 和 和 ipcontroller-client.json 文 件 。 创 建 客户 端 时 加 上 profile='testprofile' 参 数 ， 就 会 搜索 
这 些 文件 。 如 果 我 们 用 parallel .client () 命 令 创 建 客户 端 ， 就 会 在 profile_default 文 件 夹 里 搜 
索 JSON 文 件 。 


首先 程序 创建 一 个 计算 指数 的 函数 ， 然 后 创建 一 个 单 引 擎 的 客户 端 。 要 在 引擎 中 调用 Python 
函数 ， 可 以 使 用 客户 端 或 视图 的 apply 方 法 。Python 的 map 函 数 可 以 对 序列 对 象 进行 映射 计算 。 
DirectView 和 LoadBalancedView 里 的 map 销 数 可 以 对 序列 进行 并 行 计算 。 我 们 可 以 用 阻塞 和 
非 阻 塞 两 种 模式 运行 。 在 阻塞 模式 下 ， 我 们 将 参数 block 设 置 为 true， 默 认 值 是 false: 
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from IPython import parallel 
def pow(a, b): 

returiy a **, 
clients = parallel.Client (profile='testprofile') 
print clients.ids 
clients.block = True 
clients[0] .apply (pow, 2, 4) 
clients[:].apply (pow, 2, 4) 
map (DoW. [2 C3 4, S13 23 Bd. 5] ) 
View = clients.load balanced view!() 
view.map(pow, [2, 3, 4, 5], [2, 3, 4, 5]) 





8.3.1 ”并行 装饰 器 


在 DirectVview 里 有 一 个 装饰 右 可 以 创建 parallel 并 行 函数 。 这 个 函数 在 序列 上 运行 ， 首 
先 会 打破 原 有 的 次 序 ， 之 后 并 行 计算 每 个 元 素 的 函数 值 ， 最 后 再 把 结果 按 顺 序 重组 。 
LoadBalancedView 的 装饰 器 也 可 以 把 Python 程 序 转换 成 parallel 函数 : 





























from IPython import parallel 
clients = parallel.Client (profile='testprofile') 
lbview = clients.load balanced view() 
lbview.block = True 
serial_ computation = map(lambda i:i**5, range(26)) 
parallel_computation = lbview.map (lambda i: i**5, range(26)) 
@lbview.parallel () 
def func_turned as_parallel (x): 
return x**8 
func_turned as_parallel .map (range (26)) 


8.3.2 1IPython 的 魔法 函数 

IPython 有 许多 魔法 函数 ， 用 户 可 以 像 命 令 一 样 使 用 它们 。 了 Python 有 两 种 魔法 函数 ， 分 别 是 
行 魔法 函数 (line magic， 单 行 语句 ) 和 单元 魔法 函数 (cell magic， 多 行 语句 )。 行 魔法 函数 是 在 
前 面 加 sg， 功 能 如 同 操作 系统 命令 。 单 元 魔法 函数 是 在 前 面 加 ss， 它 们 会 把 这 一 行 和 后 面 的 代码 




































































看 成 一 体 ， 与 其 他 代码 区 别 对 待 。 | 
当 用 户 创建 了 客户 端 之 后 ， 就 可 以 使 用 魔法 函数 了 。 部 分 行 魔法 函数 介绍 如 下 。 





al 


口 spx: 可 以 让 指定 的 引擎 运行 一 个 Python 命 令 。 用 户 可 以 通过 设置 视图 实例 的 target 
性 来 选择 引擎 。 

口 spxconfig: 即 使 我 们 没有 任何 激活 的 视图 ,也 可 以 用 pxconfig 魔 法 函数 加 --targets、 
--block 和 --noblock 人 参数 选择 引擎 。 

口 sautopx: 这 是 一 个 有 弹性 的 魔法 函数 ， 可 以 自动 选择 并 行 和 非 并 行 模 式 。 第 一 次 调用 
时 ， 它 会 把 终端 切换 成 一 种 能 够 让 所 有 命令 和 函数 以 并 行 模式 运行 的 状态 ， 直 到 用 户 再 
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次 调用 autopx 了 因数 才 结 





口 spxresult: 在 非 阻塞 模式 下 ，#px 国 数 不 会 返回 计算 结果 。 可 以 用 pxresult 魔 法 函数 


看 到 最 新 的 结 


在 单元 魔法 函数 模式 下 ，px (sspx ) 魔法 函数 可 以 通过 --targets 选 项 设置 目标 引擎 ， 
--block 或 --noblock 选 项 设置 阻塞 或 非 阻塞 执行 模式 。 当 我 们 没有 启动 视图 实例 时 , 这 些 参 数 




















非常 有 用 。 另 外 还 有 --group-output 选 项 ， 可 以 管理 多 个 引擎 的 输出 结 细 





日 








人 oo 


下 面 的 程序 将 演示 px 与 pxresult 作 为 行 魔法 函数 和 单元 魔法 函数 的 用 法 。 还 演示 了 





autopx 和 pxconfig 行 魔法 函数 ， 以 及 为 这 些 行 魔法 函数 创建 具体 后 组 的 
第 三 行 向 IPython 会 话 以 及 所 有 引 警 导入 了 模块 numpy。 第 二 行 语句 后 面 导 
行 





from IPython import parallel 

drctview = clients[:] 

with drctview.sync_imports(): 

import numpy 

clients = parallel.Client (profile='testprofile') 
drctview.activate!() 

drctview.block=True 

Spx dummymatrix = numpy.random.rand(4,4) 

Spx eigenvalue = numpy.linalg.eigvals (dummymatrix) 
drctview['eigenvalue'] 


Spxconfig --noblock 
Sautopx 
maximum egnvals = [] 
for idx in range(50): 
arr = numpy.random.rand(10,10) 
egnvals = numpy.linalg.eigvals (arr) 
maximum_ egnvals.append (egnvals{[0] .real) 
Sautopx 
Spxconfig --block 
Spx answer= "The average maximum eigenvalue is: 
egnvals)/len (maximum egnvals)) 
dv['answer'] 





OO 


sgsDX --block --group-outputs=engine 
import numpy as np 

arr = np.random.random (4,4) 
egnvals = numpy.linalg.eigvals (arr) 
print egnvals 

egnvals.max() 

egnvals.min() 


odd_view = clients[1::2] 
odqd_view.activate("_odd") 
Spx print "Test Message" 
odgd_view.block = True 


方法 。 程 序 第 二 行 和 
入 的 所 有 模块 都 会 在 





f"g (Sum (maxirmurm AN 
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Spx print "Test Message" 
clients.activate!() 

Spx print "Test Message" 
Spx_odd print "Test Message" 


1. 激活 视图 
默认 情况 下 ， 魔 法 函数 与 DirectView 对 象 有 对 应 关系 (一 个 对 象 使 用 一 类 魔法 函数 )。 用 
户 可 以 在 任意 一 个 视图 中 调用 activate () 方 法 改变 ee 激活 视图 时 ， 我 们 可 以 
人 比如 定义 成 odqq_view.activate("_odq")。 对 于 这 个 视图 ， 在 原始 的 魔 
法 函数 基础 上 就 生成 了 一 个 新 的 魔法 函数 ， 例 如 spx_odd， 站 后 一 行使 用 。 
2. 引擎 与 Qt 终端 


bx 魔法 函数 可 以 让 用 户 把 Qt 终端 连接 到 引 敬 上， 方便 代码 调试 。 下 面 的 程序 演示 了 利用 
bind_kernel 将 Qt 终端 与 引 警 连接， 监听 一 个 连接 的 信 ， 























汇 


S$px from IPython.parallel import bind kernel; bind _ kernel () 
Spx Sqtconsole 
Spx Sconnect_info 


8.4 ”IPython 的 高 级 特性 
下 面 将 介绍 IPython 的 一 些 高 级 特性 





O 


8.4.1 容错 执行 


默认 情况 下 , IPython 的 引擎 是 可 以 容错 并 动态 负载 均衡 的 集群 系统 。 在 任务 接口 里 的 客户 端 
不 会 直接 连接 到 引擎 。 任务 都 是 通过 调度 器 分 配 的 , 这 样 可 以 保证 接口 设计 得 简单 、 灵 活 、 强 大 。 


在 IPython 中 如 果 一 个 任务 失败 了 , 就 会 重新 排队 并 尝试 再 次 启动 。 用 户 可 以 设置 任务 失败 重 
新 启动 的 次 数 ， 以 及 设置 重新 提交 任务 给 其 他 引擎 


如 果 有 需要 , 可 以 显 式 地 重新 提交 任务 。 也 可 以 为 任务 重 试 次 数 设 置 一 个 标示 一 一 设置 一 个 
视图 或 调度 右 标 示 即 可 。 


如 果 用 户 确信 任务 失败 不 是 代码 问题 ， 那 么 重 试 次 数 可 以 设置 为 1 到 引擎 数量 之 间 的 任意 整 
数值 。 


之 所 以 将 最 大 重 试 次 数 限制 为 引擎 数量 , 是 因为 任务 不 会 被 再 次 提交 给 已 经 运行 失败 的 引擎 


设置 重新 提交 标示 的 方法 有 两 种 。 一 种 是 用 LoadBalancedView 对 象 (假设 名 称 是 lbvw ) 
设置 重 斌 次数， 如 下 所 示 : 
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lbvw.retries = 4 
另 一 种 方法 是 用 with .. .temp_flags 代 码 块 设置 ， 像 这 样 : 


with lbvw.temp_flags (retries=4): 
lbview.apply (task_tobe retried) 











8.4.2 ”动态 负载 均衡 


调度 器 可 以 按照 不 同 的 调度 策略 进行 配置 。 在 动态 负载 均衡 时 ，IPython 可 以 使 用 许多 调度 
机 制 对 任务 进行 分 配 ， 同 时 也 可 以 对 调度 机 制 进行 自 定 义 。 选 择 一 种 调度 机 制 的 方法 有 两 种 。 
一 是 设置 config 对 象 的 LaskSchedulerscheme_nam 属性 ， 二 是 通过 ipcontroller 的 参数 
进行 配置 : 












































ipcontroller --scheme=<schemename> 
示例 如 下 : 
ipcontroller --scheme=1lru 


这 里 的 <schemename> 可 以 有 以 下 几 种 方式 (与 操作 系统 调度 方式 一 致 )。 


口 lru: 最 近 用 过 的 (Least Recently Used，LRU ) 是 一 种 将 任务 分 配给 刚刚 使 用 过 的 引擎 
的 调度 方式 。 
口 plainrandom: 这 种 方式 是 随机 选择 一 个 引擎 运行 任务 。 

口 twobin; 这 种 方式 是 用 NumPy 函 数 分 配 任务 。 它 是 plainrandom 和 1ru 的 组 合 形式 ， 首 
先 随 机 选择 两 个 引擎 ， 然 后 选择 两 者 中 最 近 用 过 的 引擎 。 

D leastload: 这 是 调度 器 的 默认 调度 机 制 。 它 会 选择 负载 最 小 的 引擎 ( 即 当 前 运行 任务 
数量 最 少 的 引擎 ) 运行 任务 。 

口 weighted; 这 是 twobin 调 度 机 制 的 加 权 版 本 。 首 先 随机 选择 两 个 引擎 ， 然 后 以 引擎 负 
载 数 量 或 未 完成 的 任务 数量 作为 权重 ， 再 选择 权重 低 〈 即 负载 数量 较 少 ) 的 引擎 。 
























































8.4.3 在 客户 端 与 引擎 之 间 推 拉 对 象 


除了 在 引擎 上 调用 函数 并 运行 代码 ，IPython 还 允许 用 户 在 引擎 和 客户 端 之 间 移 动 Python 对 
象 。push 方 法 是 客户 端 向 引擎 推送 对 象 ，pul1 方 法 是 客户 端 道 癌 从 引擎 拉 回 对 象 。 在 非 阻 塞 模 
式 下 ，push 和 pul1 方 法 都 会 返回 AsyncResult 对 象 。 要 在 非 阻 塞 模式 下 返回 结果 ， 可 以 这 样 拉 
回 对 象 ?: rslt = drctview.pull(('a','b','c'))。 可 以 调用 rslt .get() 方 法 显示 拉 取 对 
象 的 值 。 有 时 ， 把 输入 数据 序列 分 割 成 几 块 ， 然 后 推送 给 不 同 的 引擎 是 非常 有 效 的 做 法 。 这 种 分 
割 方法 可 以 用 scatter 和 gather 困 数 来 实现 ， 类 似 于 MPI 的 方式 。scattet 操 作 是 从 客户 端 
























































Q 了 Python 结果 是 在 引擎 中 计算 出 来 的 。 一 一 译 者 注 
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(IPython 会 话 ) 把 分 割 序列 推送 给 引擎 ，gather 操 作 是 把 分 割 对 象 从 引擎 拉 回 到 客户 端 。 


这 些 功 能 全 部 通过 下 面 的 程序 进行 演示 。 在 程序 最 后 ， 通 过 scatter 和 gather 函 数 来 实现 
并 行 计 算 两 个 矩阵 的 点 乘 运算 。 








import numpy as np 
from IPython import parallel 
clients = parallel.Client (profile='testprofile') 








drctview = clients[:] 
drctview.block = True 
drctview.push(dict(a=1.03234,b=3453)) 
drctview.pull('a') 
drctview.pull('b', targets=0) 
drctview.pull(('a','b')) 
drctview.push(dict (c='speed')) 
deetviewapDulll( ("a 7 Le )) 
drctview.block = False 

rsilt. = ,dretview .pulLE( (a TB Ley) 
rslt.get() 


drctview.scatter('a',range(16)) 
drctview['a'] 
drctview.gather('a') 





def paralleldot (vw, matl, mat2): 
vw[l'mat2'] = mat2 
vw.scatter('mat1l', mat1) 
vw.execute('mat3=matl1.dot (mat2)') 
return vw.gather('mat3', block=True) 
a SpomatEix( 1 2 3 到 677 8 9) 
Be WB mmatLX( dr S65 "80s 0 L212 
paralleldot (drctview, a,b) 


下 面 的 程序 演示 了 首先 从 客户 端 向 引擎 推送 对 象 , 然后 从 引擎 拉 回 结果 到 客户 端 。 程 序 在 所 
有 引擎 上 计算 两 个 矩阵 的 点 乘 ， 再 收集 结果 。 同 时 ， 程 序 还 通过 allclose () 方 法 证 明 结果 都 是 
一 样 的 ， 如 果 都 一 样 就 会 返回 rrue。 在 程序 的 sxecute 命 令 中 ， 添 加 print mat3 语 句 是 为 了 后 
面 用 ai splay_outputs () 困 数 在 屏幕 上 显示 所 有 引擎 的 输出 结 


import numpy as np | 
from IPython.parallel import Client 
































下 本 证: 三光 
mat1l = np.random.randn (ndim, ndim) 
mat2 = np.random.randn (ndim, ndim) 


mat3 = np.dot (mat1,mat2) 

clnt = Client (profile='testprofile') 

clnt.ids 

dvw = clnt[:] 

dvw.execute('import numpy as np', block=True) 
dvw.push (dict (a=matl1, b=mat2), block=True) 

rslt = dvw.execute('mat3 = np.dot(a,b); print mat3', block=True) 
rslt.display_outputs() 
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dot_product = dvw.pull('mat3', block=True) 


print dot_product 


np.allclose(mat3, dot_product{[0]) 

np.allclose(dot_ product[0], dot_product[1]) 
np.allclose(dot_ product[1], dot_product[2]) 
np.allclose(dot_ product[2], dot_product[3]) 


8.4.4 支持 数据 库存 储 请 求 与 结果 
IPython 集 线 器 会 存储 任务 请 求 与 结果 给 后 面 的 程序 使 用 。 默 认 情况 下 , 它 都 使 用 SQLite 数 据 





库 ， 现 在 还 支持 MongoDB 数 据 库 和 一 种 叫 DictDB 的 内 存 数 据 库 。 用 户 可 以 在 配置 文件 里 设置 数 
据 库 类 型 。 在 配置 文件 夹 里 ， 有 一 个 ipcontroller_config.py 文 件 。 可 以 通过 ipcluster 命 令 启动 配 























置 文件 。 文件 里 有 c .HubFactory .db_class 选 项 , 用 户 可 以 设置 自己 想 用 的 数据 库 , 如 下 所 示 : 





'IPython.parallel.controller.dictdb.DictDB' 


'IPython.parallel.controller.mongodb.MongoDB' 


# 配置 dictdlib， 字 典 形式 内 存 数 据 库 
c.HubFactory.db_class 

# 配置 MongoDB: 
c.HubFactory.db_class 

# 配置 SQLite: 

le 


.HubFactory.db_class 























'IPython.parallel.controller.sqlitedb.sQLiteDB' 





默认 属性 值 是 opB， 表 示 没 使 用 任何 数据 库 。 如 果 用 户 想 获取 任何 已 执行 任务 的 结果 ， 可 





以 在 客户 端 对 象 上 调用 get_result 函 数 。 不 过 客户 端 对 象 还 有 一 个 更 好 的 函数 ab_query ()。 
这 个 方法 是 按照 MongoDB 查 询 方 式 设 计 的 ， 它 通过 一 个 词典 对 象 查询 ， 词 典 的 键 就 是 带 准确 值 
的 TaskRecord 键 ,或 者 MongoDB 的 查询 。 这 些 参数 的 语法 是 按照 {'operator' : 'argument 
(s) '} 这 类 形式 。 还 有 一 个 可 选 的 参数 ,名字 是 keys。 这 个 参数 用 于 指定 需要 获取 的 键 。 它 会 返 
回 一 个 raskRecora 词 典 列 表 。 默 认 情 况 下 ， 会 返回 所 有 的 键 ， 除 了 引擎 缓存 中 的 请 求 和 结 
与 MongoDB 类 似 ，msg_id 键 也 会 出 现在 里 面 。 一 些 TaskRecord 键 的 含义 解释 如 下 。 





DQ header: 


DQ puffers: 


、 
































D msg_idq: 这 个 值 是 uuia ( 字 节 ) 类 型 ， 表 示 消 息 的 ID。 
这 个 值 是 ai ct 类 型 ， 存 放 请 求 头 信息 。 
口 content : 这 个 值 是 aict 类 型 ， 存 放 请 求 内 容 ， 通 常 为 空 。 
这 个 值 是 1ist( 字 节 ) 类 型 ， 请 求 对 象 的 缓存 列表 。 
口 supmitted: 这 个 值 是 aatetime 类 型 ， 存 放任 务 的 时 间 戳 。 
D client_uuigd: 客户 端的 uuid 值 (universally unique identifier， 通 用 唯一 标识 符 )。 
口 engine_uuid: 这 个 值 是 uuia( 字 节 ) 类 型 ， 计 算 引 擎 套 接 字 的 uuid 值 。 
口 started: 这 个 值 是 aatetime 类 型 ， 存 放 引 擎 开始 计算 的 时 间 。 
口 completed: 这 个 值 是 aatetime 类 型 ， 存 放 引 擎 完成 计算 的 时 间 。 
口 resubmitted: 这 个 值 是 aatetime 类 型 ， 存 放 引 擎 (异常 中 断后 ) 恢复 计算 的 时 间 。 
口 result_header: 这 个 值 是 aict 类 型 ， 存 放 计 算 结 果 的 请 求 头 。 
口 result_content: 这 个 值 是 ai ct 类型， 存放 计算 结果 的 内 容 。 
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口 result_buffers: 这 个 值 是 1ist ( 字 节 ) 类 型 ， 计 算 结果 对 象 的 缓存 列表 。 
口 oueue: 这 个 值 是 bytes 类 型 ， 任 务 队 列 的 名 称 。 

口 stdout: 标准 输出 ( standard output ) 数据 流 。 

口 stderr: 标准 错误 (standard error ) 数据 流 。 


下 面 的 程序 演示 了 db_query () 和 get_result () 获取 结 果 的 用 法 。 


from IPython import parallel 


























from datetime import datetime, timedelta 

clients = parallel.Client (profile='testprofile') 

incomplete task = clients.db_ query({'complete' : None}, keys=['msg_\ 
id', 'started']) 

one_hourago = datetime.now() - timedelta(1./24) 

tasks_started hourago = clients.db query({'started' : {'S$gte' : one_\ 
hourago },'client uuid' : clients.session.session}) 

tasks_started_ hourago_other_client = clients.db query({'started' 

: {'S$Sle' : hourago }, 'client uuid' : {'S$ne' : clients.session. 
session}}) 

uuids_of 3 _n 4 = map(clients. engines.get, (3,4)) 





headers_of 3 _n 4 = clients.db query ({'engine uuid' : {'S$in' : uuids_\ 
of_3_n 4 }}, keys='result_header') 


下 面 是 qb_query 方 法 里 可 用 的 关系 运算 符 ， 与 MongoDB 一 样 。 


'$in': 元 素 在 列表 /序列 中 。 

' $nin': 元 素 不 在 列表 /序列 中 。 
' $eq'; 表示 等 于 ( == )。 

' Sne': 表示 不 等 于 ( != )。 

' sgt': 表示 大 于 (> )。 
'Sgte': 表示 大 于 等 于 (>= )。 
'S1t': 表示 小 于 (< )。 

' $lte': 表示 小 于 等 于 (<= )。 


8.4.5 ”在 IPython 里 使 用 MPI i 


通常 ， 多 引擎 的 并 行 算 法 都 需要 在 引擎 之 间 进 行 数据 交 换 。 我 们 在 前 面 已 经 介绍 了 IPython 
数据 交换 的 方法 。 然 而 ， 因 为 那 不 是 引擎 与 客户 端的 直接 数据 交换 方式 ， 数 据 都 需要 经 过 控制 
器 的 调度 ， 所 以 速度 比较 慢 。 另 一 种 高 性 能 的 数据 交互 方式 是 通过 MPI。IPython 并 行 计 算 架 构 
可 以 完美 支持 MPI。 要 在 IPython 用 MPI 实 现 并 行 计 算 ， 需 要 安装 OpenMPI 或 MPICH2/MPICH 和 
mpi4py 软 件 包 。 安 装 之 后 ， 可 以 通过 mpiexec 和 mpirun 命 令 检测 是 否 安装 成 功 。 


安装 测试 完成 之 后 ， 在 运行 真正 的 MPI 程 序 之 前 ， 用 户 需 要 创建 一 个 配置 文件 : 


ipython profile create --parallel --profile=mpi 


























DOOOOODODO 
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配置 文件 创建 之 后 ， 把 下 面 这 行 代码 加 入 profile mpi 文件 夹 的 ipcluster_config.py 文 件 中 : 
c.IPClusterEngines.engine launcher_class = 'MPIEngineSetLauncher， 

现在 系统 已 经 可 以 在 IPython 上 运行 MPI 程 序 了 。 用 户 可 以 通过 下 面 的 命令 启动 计算 集群 : 
ipcluster start -n 4 --profile=mpi 

上 面 的 命令 会 启动 IPython 控 制 器 ， 并 通过 mpiexec 命 令 启动 四 个 引擎 。 

下 面 的 程序 定义 了 一 个 函数 ， 分 布 式 计算 一 个 数组 的 和 。 把 程序 命名 为 parallelsum.py， 它 将 














在 后 面 程序 中 使 用 : 





from mpi4py import MPI 
import numpy as np 


def parallelsum(arr): 
localsum = np.suml(arr) 
receiveBuffer = np.array (0.0,'d') 
MPI .COMM WORLD.Allreduce([localsum, MPI .DOUBLE], 
[receiveBuffer, MPI .DOUBLE], 
op=MPI . SUM) 
return receiveBuffer 


在 下 面 的 程序 中 使 用 前 面 定 义 的 函数 ， 在 多 个 引擎 上 计算 。 下 面 就 是 并 行 数组 求 和 的 程序 : 


from IPython.parallel import Client 
clients = Client (profile='mpi') 





drctview = clients[:] 

drctview.activate!() 

# 将 程序 的 文件 名 作为 参数 运行 计算 
drctview.run(parallelsum.py.py') 
drctview.scatter('arr',np.arange(20,dtype='float')) 
drctview['arr'] 

# 调用 函数 

S$px sum of_array = parallelsum(arr) 

drctview['sum of_array'] 





8.4.6 ”管理 任务 之 间 的 依赖 关系 


IPython 对 任务 之 间 依 赖 关 系 的 管理 有 着 强 有 力 的 支持 。 在 大 多 数 科学 与 商业 计算 领域 , 仅仅 





负载 均衡 不 足以 解决 计算 的 复杂 性 。 应 用 还 需要 管理 任务 之 间 的 依赖 关系 。 这些 依 赖 包括 计算 过 
程 中 需要 的 软件 、Python 模 块 、 操 作 系 统 、 硬 件 ， 在 一 群 任务 中 执行 单个 任务 所 需 的 运行 顺序 、 
时 间 、 空 间 。IPython 支 持 两 种 依赖 关系 管理 方式 : 函数 依赖 ( functional dependency ) 和 图 依赖 
( graph dependency )。 








1. 函数 依赖 关系 
函数 依赖 用 于 确定 一 个 引擎 是 否 有 能 力 运行 一 个 任务 。 这 个 概念 通过 IPython.parallel. 
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error 里 的 一 个 UnmetDependency 异 常 实现 。 如 果 任 务 运 行 失 败 并 触发 unmetDependency 异 
党 ,调度 器 不 会 把 异常 发 送 到 客户 端 ,而 是 自动 处 理 异常 并 把 失败 任务 提交 到 其 他 引擎 上 。 调度 
右 会 重复 这 个 过 程 直到 找 出 适合 的 引擎 。 男 外 ， 调 度 右 不 会 向 同一 个 引擎 提交 两 次 。 

函数 依赖 装饰 器 


虽然 用 户 也 可 以 手动 触发 UnmetDependency 异 常 , 但 是 IPython 还 是 提供 了 两 个 装饰 器 来 管 
理 依 赖 关 系 。 


口 erequire: 这 个 法 饰 絮 管理 那些 当 被 装饰 函数 被 调用 时 ,需要 在 引擎 里 使 用 特殊 的 Python 
模块 、 局 部 函数 或 局 部 对 象 的 任务 的 依赖 关系 。 函 数 将 通过 名 称 推送 到 引擎 里 ， 对 象 可 
以 通过 arg 关 键 词 传递 。 我 们 可 以 传递 执行 任务 需要 的 所 有 Python 模块 的 名 称 。 通 过 这 个 
装饰 器 ， 用 户 可 以 自 定义 一 个 函数 ， 只 在 那些 装饰 器 里 的 模块 名 称 是 可 用 的 、 可 导入 的 
引擎 上 运行 。 






















































































例如 ， 下 面 代码 中 的 函数 依赖 NumPy 和 pandas 模 块 ， 里 面 需要 使 用 NumPy 的 *andn 和 
pandas 的 Series。 假 如 有 个 任务 需要 调用 该 函数 ， 那 么 该 函数 会 在 已 经 导入 这 两 个 模块 
的 机 器 上 运行 。 一 旦 函数 被 调用 ，NumPy 和 pandas 模 块 就 会 导入 : 

from IPython.parallel import depend, reqgquire 

# 下 面 隙 数 用 randn 和 Series 

@require('pandas', 'numpy') 


def func uses_functions_from numpy_pandas () : 
return performactivity () 


口 eaepena: 这 个 装饰 颖 让 用 户 可 以 定义 一 个 与 其 他 函数 有 依赖 关系 的 函数 。 它 可 以 判定 
依赖 关系 是 否 满足 。 在 任务 运行 之 前 ， 依 赖 函数 先 被 调用 。 如 果 函 数 返 回 :rue， 那 么 任 
务 的 执行 过 程 就 会 开始 。 如 果 依 赖 函数 返回 false, 说 明 依 赖 关系 未 得 到 满足 ， 于 是 任务 
将 被 分 配给 其 他 引 警 。 


下 面 的 代码 块 创建 了 一 个 依赖 函数 ， 检 查 引 擎 的 操作 系统 是 否 匹 配 当 前 操作 系统 。 这 么 
做 是 因为 用 户 想 写 两 个 不 同 的 函数 , 分 别 在 Linux 和 Windows 操 作 系 统 上 完成 不 同 的 任务 : 


from IPython.parallel import depend, require 
def find_ operating_system(plat): 
import sys 
return sys.platform.startswith (plat) 
@depend (find_operating_system, 'linux') 
def linux_ specific task() : 
perform activity_on_ linux() 
@depend (find_ operating_system, 'win') 
def linux_ specific windows(): 
perform activity_on windows () 


2. 图 依赖 关系 
这 是 另 一 种 重要 的 依赖 关系 , 任务 彼此 之 间 相 互 依赖 , 当 若 干 或 所 有 任务 都 已 经 成 功 运行 后 ， 
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一 个 任务 才 运 行 ,还 有 一 种 依赖 关系 是 :一 个 任务 必须 在 指定 的 若干 依赖 已 经 得 到 满足 时 才 执 行 。 
一 般 情况 下 , 用户 在 执行 任务 之 前 ， 需 要 设置 具体 的 时 间 和 位 置 , 也 作为 其 他 任务 的 时 间 、 位 置 
和 结果 的 函数 。Depenqency 类 是 IPython 管 理 图 依赖 关系 的 专用 类 ，Dependqency 是 set 类 的 子 
类 。 它 包括 任务 的 信息 卫 号 和 一 些 属性 。 这 些 属 性 可 以 帮助 用 户 检 查 依赖 关系 是 否 得 到 满足 。 


口 any 1all: 这 些 属 性 决定 每 个 依赖 是 否 都 需要 满足 。 所 有 依赖 设置 的 默认 值 都 是 rrue。 
D success: 这 个 属性 的 默认 值 是 True， 表 示 如 果 指 定 的 任务 成 功 地 运行 ， 就 认为 依赖 关 























































































































系 得 到 了 满足 。 
口 failure: 这 个 属性 的 默认 值 是 False, 表示 如 果 指 定 的 任务 运行 失败 ,就 认为 依赖 关系 
得 到 了 满足 。 








D after: 这 个 属性 表示 指定 的 任务 运行 之 后 ， 应 执行 相关 任务 。 

口 follow: follow 属 性 表示 指定 的 任务 应 该 与 依赖 任务 一 样 ， 在 同一 位 置 运 行 。 

口 timeout: 这 个 属性 表示 调度 器 等 待 依赖 被 满足 的 时 限 要 求 。 默 认 是 0， 表示 任务 可 以 无 
限 等 待 依赖 。 当 超过 时 限 要 求 之 后 , 会 触发 DependencyTimeout 异 常 ， 对 应 的 任务 运行 
失败 。 


有 一 些 任务 的 功能 是 清理 失败 任务 。 只 有 指定 任务 运行 失败 时 ,它们 才 会 启动 。 用 户 需 要 用 
failure=True, success=False 来 启动 这 些 任务 。 对 于 一 些 有 依赖 关系 的 任务 ,需要 那些 依赖 
关系 都 完全 得 到 满足 。 在 这 种 情况 下 ， 用 户 需 要 把 函数 设置 成 success=True 和 failure= 
FEalse。 有 时 用 户 也 需要 有 依赖 关系 的 任务 可 以 独立 地 运行 , 不 去 考虑 依赖 任务 运行 的 成 功 与 失 
败 。 这 时 ， 用 户 需 要 设置 函数 为 success=failure=True。 


3. 不 可 能 满足 的 依赖 关系 

有 一 些 依赖 关系 不 可 能 满足 。 如 果 调 度 器 搞 不 定 这 些 依赖 关系 ， 它 就 会 一 直 傻 傻 地 等 啊 等 ， 
期 待 着 依赖 关系 被 满足 ， 这 显然 不 合理 。 为 了 解决 这 个 问题 ,调度 器 会 提前 分 析 图 依赖 关系 ， 评 
佑 依赖 关系 可 以 满足 的 可 能 性 。 如 果 调 度 器 经 过 评估 发 现 依赖 关系 不 可 能 得 到 满足 ， 就 会 触发 
ImpossibleDependency 错 误 。 下 面 的 程序 演示 了 如 何 管 理 任 务 之 间 的 图 依赖 关系 : 

































































from IPython.parallel import * 
clients = ipp.Client (profile='testprofile') 
lbview = clients.load balanced view!() 


task_fail = lbview.apply_async (lambda : 1/0) 

task_success = lbview.apply_async (lambda : 'success') 
clients.wait() 

print ("Fail task executed on %i" % task_ fail.engine_ id) 

print ("Success task executed on %i" % task_ success.engine_id) 


with lbview.temp_flags (after=task_success): 
print (lbview.apply_sync(lambda : 'Perfect')) 


with lbview.temp_flags (follow=pl.Dependency ([task_fail, task_success], 
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failure=True 


lbview.apply_sync (lambda : 


with lbview.temp_flags (after=Dependency ([task_fail, 


success=Fals 
lbview.a 


Ns 
"impossible") 


Ss 


pply_sync(lambda : "impossible") 


def execute print_ engine(**flags): 


for idx 
with 


execute_ print_ engine (follow=Dependency ([task_fail, 
execute_print engine(after=Dependency ([task_fail, 
execute_print_engine(follow=Dependency ([task_fail, 
failure=True, success=False)) 

execute_print_ engine(follow=Dependency ([task_fail, 


in range(4): 

lbview.temp_flags (**flags): 

task = lbview.apply_async (lambda : 
task.get() 


各 
三 


print ("Task Executed on %i" 





“了 Per 


ta 


fec 


Las 


task_. 


Las 





Las 


sk_success], failure=True, 


二 


task.engine_id) 


k_success], all=False)) 
success], all=False)) 
k_success], all=False, 





k_success], all=False, 


failure=True)) 


4. DAG 依 赖 关系 与 NetworkX 函 数 库 


一 般 情 况 下 ,用 有 向 无 环 图 ( Directed Acyclic Graph，DAG ) 表示 并 行 工 作 流 更 合适 。Python 

的 知名 画图 程序 库 是 NetworkX。 有 向 无 环 图 是 由 节点 和 有 向 边 组 成 的 。 边 连接 不 同 的 节点 ， 每 

条 边 都 有 方向 。 我 们 可 以 用 这 个 概念 表示 依赖 关系 。 例 如 ，edge (task1，task2) 和 

任务 2 的 边 ， 表 示 任 务 2 依赖 于 任务 1。 而 edge (task2，task1) 表 示 任 务 1 依 赖 于 任务 2。 这 个 图 
不 能 有 环 ， 所 以 称 为 无 环 图 。 


下 面 让 我 们 看 看 一 个 六 节点 DAG。 任 务 0 不 依赖 于 任何 任务 ， 所 以 它 可 以 立即 执行 。 但 是 ， 
任务 1 和 任务 2 依赖 于 任务 0， 因 此 它们 会 在 任务 0 完成 之 后 i 而 任务 3 依赖 于 任务 1 和 任务 2， 



































Ht 








sh 


运 们 。 

















因此 它 在 任务 1 和 任务 2 运行 结束 之 后 才 会 运行 。 同 理 可 得 ， 任 务 4 和 任务 5 在 任务 3 运行 结束 之 后 
才 会 运行 。 任 务 6 仅仅 依赖 任务 4， 因 此 它 会 在 任务 4 运行 完成 后 运行 。 

下 面 的 程序 是 上 面 DAG 的 描述 。 程 序 中 ， 任 务 用 数字 表示 ， 任 务 0 用 0 表示 ， 任 务 1 用 1 表示 ， 
以 此 类 推 : 


import networkx as ntwrkx 
import matplotlib.pyplot as plt 


demoDAG ntwrkx.DiGraph () 

map (demoDAG .add_node, range(6)) 
emoDAG .adqd_edge(0,1) 

emoDAG. 
emoDAG. 
emoDAG. 
emoDAG. 
emoDAG. 
emoDAG. 


( ) 
Baad sagt 3 
add_edge (2,3) 
adqd_edge (3,4) 
adqd_edge (3,5) 
add_edge (4,6) 





Q 
Q 
Q 
Q 
Q 
Q 
Q 
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BOs A 0 0 0g sh Re (SDAL) 2 Chr LY) Wy NE 
4)} 

labels={} 

labels[0]=r'S$08' 

labels[1]=r'S$1s$' 

labels[2]=r'$28$' 

labels[3]=r'$38$' 

labels[4]=r'$4$' 

labels[5]=r'$5$" 

labels[6]=r'$68$' 








ntwrkx.draw (demoDAG, pos, edge_color='r') 






































ntwrkx.draw_networkx_labels (demoDAG, pos, labels, font_size=16) 
plt.show!() 

下 面 的 程序 创建 了 带 颜 色 的 DAG， 顶 点 会 显示 任务 的 名 称 : 

import networkx as ntwrkx 

import matplotlib.pyplot as plt 

demoDAG = ntwrkx.DiGraph() 


map (demoDAG .add_ node, range(6)) 


Dosas C0 Cr 0D) Ts (= 
ow 6 


1, 1), 2: (1, 1), 3: (0, 2), 4: (-1, 3), 
1, 4)} 


ntwrkx.draw (demoDAG, pos) 
ntwrkx.draw_networkx_edges( 
demoDAG, pos, edgelist=[ 


( 1), (0, 2), 
(人 
( 


0, 
)], edge_color='r') 
ntwrkx.draw_networkx_edges( 


demoDAG, pos, edgelist=[(3, 5), (4, 6)], edge_color='b') 
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ntwrkx.draw_networkx_nodes( 
demoDAG, pos, nodelist=[0, 1, 2, 3, 4], 
node_color='r', nodesize=500, alpha=0.8) 
ntwrkx.draw_networkx_nodes( 
G, pos, nodelist=[5, 6], node color='b', node_size=500, alpha=0.8) 








labels = {} 

labels[0] = r'$0s$' 
labels[1] = r'$1s$' 
labels[2] = r'$2$' 
labels[3] = r'$3$' 
labels[4] = r'$4$' 
Tabels tol SS" os 
labels[6] = r'$6S$' 


ntwrkx.draw_networkx_labels (demoDAG, pos, labels, font_size=16) 
plt.show!() 


8.4.7 用 Amazon EC2 的 StarCluster 启动 IPython 


Amazon 的 StarCluster 可 以 在 Amazon 的 弹性 计算 云 ( Elastic Compute Cloud，EC2 ) 上 非常 方 
便 地 使 用 虚拟 机 计算 集群 。StarCluster 是 一 个 开源 工具 箱 ， 用 于 在 Amazon EC2 上 进行 集群 计算 。 
除了 自动 配置 集群 计算 之 外 ，StarCluster 还 可 以 自 定义 Amazon 机 器 镜像 ( Amazon Machine 
Images，AMIs )， 支 持 安 装 科学 计算 和 软件 开发 的 工具 和 程序 库 。 这 些 AMI 可 以 由 ATLAS 、 
IPython 、NumPy、OpenMPI、SciPy 等 软件 组 成 。 用 户 可 以 在 安装 了 StarCluster 的 机 器 上 通过 下 
面 的 命令 获取 AMI 列 表 


starcluster listpublic 


StarCluster 的 操作 界面 十 分 简单 直观 ,方便 管理 计算 集群 和 存储 空间 。 安 装 完 之 后 ， 用 户 需 
要 更 新 配置 文件 ， 加 入 Amazon EC2 的 账户 信息 ， 包 括 IP 地 址 、 地 区 、 证 书 、 公 私密 钥 对 。 


安装 配置 完成 之 后 ， 用 户 可 以 通过 下 面 的 命令 控制 Amazon EC2 安 装 IPython: 
starcluster shell --ipcluster=clusterName 


如 果 安 装 过 程 出 现任 何 错误 , 上 面 的 命令 都 会 提示 。 如 果 配 置 正确 , 命令 就 会 启动 StarCluster 
命令 行 并 在 Amazon EC2 的 远程 集群 上 创建 并 行 会 话 任 务 。StarCluster 会 根据 ipclient 变 量 内 容 
作为 名 称 ， 创 建 并 行 客 户 端 ， 并 以 ipview 变 量 内 容 为 名 称 创建 整个 计算 集群 的 视图 。 用 户 可 以 
通过 这 些 变量 ( ipclient 和 ipview ) 在 Amazon EC2 人 集群 上 运行 并 行 任 务 。 下 面 的 程序 用 
ipclient 显 示 引 擎 的 号 ， 并 用 ipview 执 行 了 一 个 简单 的 并 行 任 务 : 










































































ipclient.ids 
result = ipview.map_async (lambda i: i**5, range(26)) 
print result.get() 


一 


用 户 还 可 以 通过 StarCluster 运 行 了 了 Python 并 行 脚 本 。 如 果 用 户 想 通过 本 地 的 IPython 会 话 运行 
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Amazon EC2 远 程 集群 上 的 并 行 脚本 ， 那 么 创建 并 行 客户 端 时 需要 在 本 地 进行 一 些 配 置 : 





from IPython.parallel import Client 
remoteclients = Client('<userhome>/.starcluster/ 
ipcluster/<clustername>-<yourregion>.json', sshkey='/path/to/cluster/keypair.rsa') 


举例 说 明 . 假如 集群 名 称 是 packtcluster， 地 区 名 称 是 us-west-2 5 密 钥 keypair 的 名 称 
是 packtKey ,文件 路 径 为 /home/user/ .ssh/packtKey. xsao 那 么 上 面 的 代码 将 改 为 如 下 形式 : 


from IPython.parallel import Client 
remoteclients = Client('/home/user/.starcluster/ipcluster/ 
packtcluster-us-west-2.json', sshkey='/home/user/.ssh/packtKey.rsa') 


这 三 行 代码 运行 之 后 ， 其 他 代码 就 可 以 在 Amazon EC2 的 远程 集群 上 运行 了 。 














8.5 1IPython 数据 安全 措施 


在 设计 IPython 架 构 时 , 也 十 分 重视 网 络 安全 问题 。 客户 端 认 证 模型 是 通过 SSH 加 密 的 TCP/IP 
连接 ， 可 以 管理 大 部 分 的 安全 问题 ， 方 便 用 户 在 公 网 使 用 Python 计算 集群 。 


由 于 ZeroMQ 没 有 提供 网 络 安全 功能 ， 因 此 使 用 SSH 加 密 隧 道 保 证 安全 连接 。client 对 象 
通过 ipcontroller-client.json 文 件 获 取 与 控制 器 的 连接 , 然后 通过 OpenSSH/Paramiko 创 建 加 密 连 接 
隧道 。 

它 还 使 用 了 HMAC 签 名 信息 的 概念 , 通过 共享 键 保护 用 户 在 共享 机 器 上 的 数据 。 有 一 个 专门 
的 会 话 对 象 处 理 签名 信息 的 协议 。 会话 对 象 通过 唯一 键 验 证 消息 的 有 效 性 。 默认 情况 下 , 键 使 用 
128 位 伪 随 机 数 ， 类 似 于 uuia .uuia4() 生 成 的 数据 。 一 般 情况 下 ，IPython 客 户 端 在 并 行 计算 过 
程 中 , 会 向 IPython 引 擎 发 送 Python 函数 、 命 令 和 数据 。IPython 可 以 保证 只 有 认证 的 客户 端 可 以 接 
人 并 使 用 引擎 。 引 擎 的 能 力 和 权限 也 完全 是 启动 它 的 用 户 授予 的 。 


为 了 阻止 未 经 授权 的 接 入 ， 认 证 和 键 相 关 信息 都 是 JSON 文 件 格 式 ， 证 IPython 客 户 端 接 和 人 控 
制 器 。 用 户 可 以 限制 键 的 接 人 数量 ， 以 控制 授权 用 户 的 数量 。 

























































































8.5.1 常用 并 行 编程 方法 

随 着 计算 机 软 硬 件 性 价 比 的 不 断 提升 ,并 行程 序 可 以 通过 多 种 形式 设计 、 开 发 与 实现 。 我们 
可 以 通过 并 发 、 并 行 和 分 布 式 三 种 方式 实现 。 前 面 提 到 的 任何 一 种 技术 都 可 以 实现 高 效 运行 的 高 
性 能 程序 。 下 面 将 介绍 这 些 模式 以 及 与 它们 相关 的 共同 问题 。 

1. 并 行 编程 经 典 问 题 

所 有 模式 都 是 在 不 同 的 计算 单元 (CPU 与 计算 节点 ) 中 执行 程序 的 不 同 部 分 。 一 般 情况 下 ， 
这 些 模式 都 是 把 程序 分 成 多 个 worker 进 程 ， 每 个 worker 进 程 都 在 不 同 的 计算 单元 上 运行 。 如 果 不 
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考虑 这 些 模 式 的 性 能 ， 这 种 使 用 多 个 worker 进 程 的 程序 执行 方式 会 造成 不 同 任务 间 通 信 困 难 。 这 


个 问题 就 是 典型 的 进程 间 通 信 ( Inter-process Communication ，IPC ) 问题 。 




















一 些 经 典 的 IPC 问 题 需要 开发 者 时 刻 注 意 ， 如 死 锁 ( deadlock )、 饥 饭 〈starvation ) 和 竞争 状 
态 (race condition )。 


口 死 锁 
死 锁 是 指 两 个 或 多 个 worker 进 程 处 于 无 限制 的 等 待 状态 , 等 待 其 他 worker 进 程 释放 正在 占 
用 的 资源 。 死 锁 有 四 个 充分 必要 条 件 , 分 别 是 相互 排斥 ( mutual exclusion )、 持 有 等 待 ( hold 
and wait )、 非 抢占 式 (no pre-emption ) 以 及 循环 等 待 (circular wait )。 如 果 程 序 在 运行 过 
程 中 出 现 了 以 上 四 种 条 件 ， 就 会 被 阻塞 ， 不 能 继续 运行 。 


m 相互 排斥 是 指 资源 是 不 能 共享 的 ， 只 能 一 个 worker 进 程 使 用 。 
a 持 有 等 待 是 指 死 锁 的 worker 进 程 持 有 部 分 资源 ， 并 请 求 其 他 资源 到 来 。 
m 非 抢 占 式 是 指 已 经 分 配给 一 个 worker 进 程 的 资源 不 能 再 分 配给 其 他 worker 进 程 使 用 。 
a 循环 等 待 是 指 程序 中 等 待 资源 的 worker 进 程 形成 了 一 个 链 或 循环 列表 ， 其 中 每 一 个 
worker 进 程 都 在 等 待 前 一 个 worker 进 程 释放 资源 。 

口 饥饿 
当 多 个 worker 进 程 争 抢 一 个 资源 时 就 会 发 生 饥 饿 (游戏 ) 状态 。 这 时 ， 每 个 worker 进 程 都 
被 配置 了 一 个 获取 资源 的 优先 级 。 有 时 , 优先 级 分 配 得 不 合理 ,就 会 导致 一 些 worker 进 程 
等 待 时 间 非 常 长 。 在 这 种 情况 下 共有 两 种 worker 进 程 在 竞争 : 高 优先 级 的 worker 进 程 和 低 
优先 级 的 worker 进 程 。 如果 高 优先 级 的 worker 进 程 连续 地 请 求 资源 , 就 会 导致 低 优 先 级 的 
worker 进 程 陷 入 无 限 漫长 的 等 待 。 

口 竞争 状态 
当 多 个 worker 进 程 同 时 对 一 块 数 据 进 行 读 / 写 操作 时 , 每 个 worker 进 程 的 操作 之 间 没 有 同 
步 ， 就 会 出 现 竞争 状态 。 例 如 ， 两 个 worker 进 程 同 时 读 取 数据 库 的 一 块 数据 ， 修 改 数据 
值 , 然后 再 写 回 数据 库 。 如 果 没 有 合理 的 同步 顺序 , 那么 数据 库 就 会 出 现 前 后 不 一 致 的 
状态 。 


有 一 些 方法 可 以 解决 这 些 问题 , 不 过 那些 方法 的 具体 内 容 超出 了 本 书 的 介绍 范围 。 如 果 感 兴 
趣 的 话 ， 可 以 看 看 其 他 相关 的 多 核 编程 书籍 。 下 面 来 介绍 并 行 计算 的 各 个 类 型 。 
2. 并 行 编程 
在 并 行程 序 的 开发 模式 中 ， 程 序 被 分 成 多 个 worker 进 程 运 行 在 多 个 独立 的 CPU 上 ， 无 需 竞 争 


一 个 CPU 的 资源 ， 如 下 岁 所 示 。 这 些 CPU 可 以 是 一 台 计 算 机 的 多 核 处 理 器 ， 也 可 以 是 在 多 台 单独 
的 计算 机 上 ， 通 过 消息 传递 接口 连接 。 
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3. 并 发 编程 











在 并 发 编程 模式 中 ， 用 户 程序 的 多 个 worker 进 程 运行 在 一 个 CPU 或 者 数量 少 于 worker 进 程 数 
量 的 CPU 上 ( 如 下 图 所 示 )。 这些 worker 进 程 会 在 CPU 调度 器 的 管理 下 争 抢 CPU 资源 。CPU 调 度 器 
会 用 不 同 的 调度 机 制 分 配 worker 进 程 给 CPU。CPU 调 度 器 机 制 会 创建 worker 进 程 的 级 别 ，worker 
进程 将 按照 级 别 的 次 序 运行 。 












































分 成 多 进程 多 线程 
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并 发 编程 模式 中 的 worker 进 程 ， 一般 都 用 多 进程 或 多 线程 来 实现 。 进 程 或 线程 都 并 发 地 完成 




















主 程序 的 一 部 分 。 线 程 与 进程 的 主要 区 别 在 于 : 线程 是 内 存 共 享 的 ， 占 用 资源 少 , 一 个 进程 可 以 
生成 多 个 线程 。 因此， 线程 也 被 称 为 轻 量 级 进程 。 


4. 分 布 式 编程 











在 分 布 式 编程 模式 中 ，worker 进 程 通过 网 络 在 不 同 的 机 右上 运行 。 有 不 同 的 框架 执行 这 类 程 
序 。 网 络 还 会 用 不 同 的 拓扑 结构 ， 在 有 些 情景 中 ,调度 机 制 数据 和 处 理 过 程 都 是 分 布 式 的 。 这 种 
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并 行 计算 模式 越 来 越 受 欢迎 , 因为 它 优点 明显 ,比如 单个 节点 成 本 低 、 容 错 效 果 好 、 高 度 扩展 性 ， 
等 等 。 在 分 布 式 计算 模式 中 ， 每 个 节点 都 有 独立 的 内 存 和 处 理 器 资源 ， 而 在 并 行 编程 模式 中 ， 处 
理 需 /CPU 共享 同样 的 内 存 资 源 。 


























分 布 式 程序 的 运行 





5. Python 多 进程 


Python 多 进程 可 以 在 多 核电 脑 的 多 个 CPU 上 创建 和 运行 多 个 独立 运行 的 进程 。Python 提 供 了 
两 个 重要 的 模型 支持 多 进程 : 一 种 是 基于 Process 类 ， 男 一 种 是 基于 Pool 类 。 


下 面 的 程序 演示 了 用 Process 类 实现 多 进程 : 








Import multiprocessing as mpcs 
import random 
import string 


output_queue mpcs.Queue() 
def strings_random(len, output_queue): 
generated string = ''.join(random.choice(string.ascii_ lowercase + 
string.ascii_ uppercase + string.digits) 
for i in range(len)) 
output_queue.put (generatedqd_ string) 





procs [mpcs.Process (target=strings_random, args=(8, output_queue)) 


for i in range(7)] 


for proc 
proc. 


for proc 
proc. 


in procs: 
start () 


in procs: 
join() 
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results = [output_queue.get() for pro in procs] 
print (results) 


基于 Process 类 的 多 进程 按照 进程 完成 的 先后 顺序 返回 结果 。 如 果 用 户 需 要 结果 按照 既定 的 
顺序 生成 ,那么 需要 费 一 番 功 夫 ， 如 下 耐 鸭 答 序 几 全 5 为 了 获取 有 序 的 结果 ， 必 须 在 函数 中 增加 
一 个 参数 ， 最 后 再 输出 到 结果 中 。 这 个 参数 表示 进程 的 位 置 或 顺序 ， 最 后 结果 被 存储 在 参数 中 。 
下 面 的 程序 基于 Process 类 演示 了 这 种 思路 ， 结 果 会 带 一 个 位 置 参数 : 


























import multiprocessing as mpcs 
import random 
import string 


output_queue = mpcs.Queue!() 


def strings_random(len, position, output_queue): 
generateqd_ string = ''.join(random.choice(string.ascii lowercase + 
string.ascii _ uppercase + string.digits) 
for i in range (len)) 
output_queue.put ((position, generated string)) 


procs = [mpcs.Process (target=strings_random, args=(5, pos, output)) 
for pos in range(4)] 


fOr-DEOG. Ln ProCe: 
DroG.startty} 

for proc in procs: 
proc.join() 


results = [output_queue.get() for pro in procs] 
results.sort() 
results = [rslt[1] for rslt in results] 


print (results) 


Pool 类 为 并 行 计算 提供 了 map 和 view 方 法 , 它 还 支持 这 些 方法 的 异步 版 本 。 它 将 会 在 进程 完 
成 之 前 对 主 程序 加 锁 ， 这 样 就 可 以 保证 程序 输出 的 结果 是 按照 顺序 排列 的 。 


6. Python 多 线程 


Python 多 线程 允许 用 户 在 一 个 进程 中 创建 多 个 线程 完成 并 发 计算 。 一 个 进程 的 所 有 线程 会 和 
进程 /线程 共享 同样 的 数据 存储 空间 ， 这 样 可 以 共享 数据 ， 方 便 互相 通信 。 线 程 也 称 为 轻 量 级 
因为 它们 所 需 的 内 存 比 进程 少 。 


下 面 的 程序 演示 如 何 创建 和 启动 线程 : 











| 
































import threading 
import time 
class demoThread (threading.Thread): 
def _ init__(self, threadID, name, ctr): 
threading.Thread.__init _(self) 
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Self.threadqID = threadID 
self.name = name 
SEeLFE. CtrE .= tt 
def run(self): 
print "Start of The Thread: " + self.name 
print_time(self.name, self.ctr, 8) 
print "Thread about to Exit:" + self.name 


def print_ time(threadName, delay, counter): 
while counter: 
time.sleep (delay) 
print "%s: %s" %$ (threadName, time.ctime (time.time())) 
counter -= 1 


thrdl = demoThread(1, "FirstThread", 4) 
thrd2 = demoThread(2, "SecondThread", 5) 
thrdl.start() 

thrd2.start () 

print "Main Thread Exits" 


这 个 程序 创建 了 两 个 线程 ,如 果 你 观察 输出 结果 ,会 发 现 结果 的 输出 顺序 混乱 ,Main Thread 
Exits 语 句 会 先 显示 ， 随 后 Thread about to Exit: ThreadName 语 句 会 随机 显示 。 


我 们 可 以 通过 线程 同步 方法 来 控制 输出 结果 , 保证 线程 按照 需要 的 顺序 完成 。 下 面 的 程序 首 
先 运行 第 一 条 线程 , 结束 后 才 运 行 第 二 条 线程 , 最 后 主线 程 才 退 出 。 保证 线程 结束 顺序 的 方法 是 ， 
线程 启动 前 先 获 取 线 程 锁 ， 线 程 结束 后 释放 线程 锁 ， 这 样 新 线程 就 可 以 获取 。 主 线程 通过 join 
方法 调用 所 有 线程 对 象 。 这 个 方法 会 在 其 他 线程 结束 之 前 阻塞 主线 程 : 






































import threading 
import time 
class demoThread (threading.Thread): 
def _ init__(self, threadID, name, ctr): 
threading.Thread.__init _ (self) 
self.threadID = threadID 
self.name = name 
SELEAGEE .Gt 
def run(self): 
print "Start of The Thread: " + self.name 
threadLock.acquire() 
print_time(self.name, self.ctr, 8) 
print "Thread about to Exit:" + self.name 
threadLock.release() 





def print time(threadName, delay, counter): 
while counter: 
time.sleep (delay) 


print "%s: %$s" %$ (threadName, time.ctime (time.time())) 
counter -= 1 








threadLock = threading.Lock!() 
thrds = [] 


174 第 8 章 并 行 与 大 规模 科学 计算 





thrdl = demoThread(1, "FirstThread", 4) 
thrd2 = demoThread(2, "SecondThread", 5) 
thrdl.start() 
thrd2.start() 


thrds.append (thrdl) 

thrds.append (thrd2) 

for thrd in threads: 
thrd.join() 





print "Main Thread Exits" 


8.5.2 在 Python 中 演示 基于 Hadoop 的 MapReduce 


Hadoop 是 一 种 在 计算 集群 上 对 大 数据 进行 分 布 式 存储 与 处 理 的 开源 框架 。Hadoop 由 三 部 分 
组 成 : 负责 数据 处 理 的 MapReduce，Hadoop 分 布 式 文件 系统 ( Hadoop Distributed File System ， 
HDFS )， 负 责 数据 存储 的 大 型 数据 库 HBase。HDFS 可 以 存储 非常 大 的 数据 集 文 件 。 它 可 以 把 数 
据 文件 分 割 成 多 个 文件 块 ， 然 后 保存 文件 块 与 计算 节点 对 应 关系 的 索引 信息 。HBase 是 一 种 支持 
大 数据 、 基 于 HDFS 开 发 的 数据 库 。 它 是 一 种 开源 、 列 导向 、 非 关系 型 分 布 式 数据 库 。 


MapReduce 是 一 种 在 计算 集群 上 对 大 数据 进行 分 布 式 处 理 的 开源 框架 。Hadoop 是 对 
MapReduce 计 算 框架 的 开源 实现 。MapReduce 程 序 由 两 部 分 组 成 : map 和 reduce。map 清 数 对 输 
和 人 数据 文件 进行 过 滤 ， 然 后 把 它 的 计算 结果 写 到 文件 系统 。 之 后 ， 再 用 reduce 函 数 进行 汇总 ， 
最 后 再 把 计算 结果 输出 到 文件 系统 。MapReduce 框 架 是 一 种 单程 序 多 数据 模式 ( Single Program, 
Moultiple Data，SPMD )， 在 多 个 数据 集 上 做 同样 的 数据 处 理 。 


在 Hadoop 系 统 中 ， 完 整 的 功能 被 分 成 多 个 组 件 。 有 两 个 主 节点 。 一 个 是 任务 跟踪 器 ( Job 
Tracker ), 主要 功能 是 跟踪 从 动 节点 的 map 和 reduce 过 程 , 从 动 节点 称 为 任务 跟踪 节点 (task tracker 
node )。 男 一 个 是 名 称 节点 (namenode ), 主要 功能 是 管理 分 市 文件 集 的 文件 块 与 从 动 节 点 ( 称 为 
数据 节点 ) 的 关联 关系 。 为 了 防止 单 节点 发 生 异常 导致 任务 失败 ， 用户 通常 还 会 安装 备份 名 称 节 
点 。 建 议 在 运行 实际 的 map 和 reduce 数 据 处 理 时 ， 使 用 大 量 既 作为 任务 跟踪 节点 又 作为 数据 节点 
的 从 动 节点 。 每 一 个 从 动 节点 既是 任务 跟踪 节点 ， 又 是 数据 节点 。MapReduce 应 用 的 性 能 与 从 动 
节点 的 数量 成 正比 。Hadoop 系 统 还 可 以 自动 宕 机 恢复 : 如 果 一 个 任务 跟踪 节点 在 数据 处 理 过 程 中 
宕 机 了 ，Hadoop 会 自动 把 任务 分 配 到 其 他 任务 节点 上 ， 数 据 处 理 过 程 不 会 中 断 。 


下 面 的 程序 是 在 Python 中 演示 基于 Hadoop 的 MapReduce 的 开发 过 程 。 它 对 一 个 普通 的 爬虫 数 
据 集 进 行 处 理 。 这 些 数据 集 包 括 长 期 抓 取 的 看 干 PB 网 络 数据 。 里 面包 括 网 页 数据 、 抽 取 的 元 数 
据 以 及 苹果 系统 文件 (Web ARChive，WARC ) 格式 的 文本 数据 。 这 些 数 据 存储 在 Amazon S3 云 
存储 里 ， 作 为 Amazon 公 开 数 据 集 程序 的 一 部 分 。 关 于 这 个 数据 集 的 更 多 信息 可 以 在 
http://commoncrawl.org/the-data/get-started/ 上 看 到 。 
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import sys 
for line in sys.stdin: 
tbr: 
line = line.strip() 
# 把 一 长 分 害 成 单词 
words = line.split() 
# 增加 计数 器 


if words[0] == "WARC-Target-URI:" 
uri = words[1] .split("/") 
print '%s\t%s' % (uri[0]+"//"+uri[2], 1) 


except Exception: 
print "There is some Error" 


上 面 的 程序 就 是 map 部 分 ， 下 面 的 程序 是 reduce 部 分 : 


from operator import itemgetter 
import sys 


current_word = None 
current_count = 0 
word = None 


for line in sys.stdin: 
line = line.strip() 


WOrdy "Count. 2 .Line. SDLlE(L NE ,| 


try: 
econt SE. Lint (count) 
except ValueError: 
continue 


if current_ word == word: 
current_count += count 
else: 
if current_word: 
print '%s\t%s' % (current_ word, current_count) 
current_count = count 
current_word = word 


if current_ word == word: 
print '%s\t%s' % (current_ word, current_count) 


运行 前 面 的 程序 之 前 , 用 户 需 要 先 把 输入 数据 集 文件 web-crawl.txt 放 到 HDFS home 文 件 夹 中 。 
用 下 面 的 命令 可 以 执行 两 个 程序 : 














#hadoop jar /usr/local/apache/hadoop2/share/hadoop/tools/lib/hadoop-streaming-— 
2.6.0.jar -file /mapper.py -mapper /mapper.py -file /reducer.py -reducer / 
reducer.py -input /sample crawl_ data.txt -output /output 


176 第 8 章 并 行 与 大 规模 科学 计算 





8.5.3 在 Python 中 运行 Spark 


Spark 是 一 个 多 用 途 的 集群 计算 系统 。 它 的 高 级 API 可 以 支持 Java、Python 和 Scala 语 言 。 这 样 
可 以 非常 轻松 地 写 出 并 行程 序 。 它 的 设计 与 Hadoop 两 阶段 .来 回 在 硬盘 倒 文件 的 MapReduce 相 反 。 
Spark 是 一 种 内 存 模型 ， 在 一 些 应 用 场景 中 可 以 实现 最 多 100% 的 性 能 提升 。 它 非常 适合 实现 机 器 
学 习 的 应 用 与 算法 。 


Spark 需 要 集群 管理 和 一 个 分 布 式 存储 系统 。 它 为 许多 分 布 式 存储 系统 都 提供 了 简单 的 接口 ， 
如 Amazon S3、Cassandra 和 HDFS, 等 等 。 另 外, 它 还 可 以 单机 运行 , 即 可 以 对 Spark 原 生 集 群 ( Spark 
native cluster )、Hadoop 、YARN 和 Apache Mesos 进 行 集 群 管理 。 





















































Spark 的 Python API 称 为 PySpark, 通过 它 就 可 以 用 Python 进行 Spark 编 程 。 可 以 在 用 PySpark 打 
开 的 命令 行 中 用 Python 编写 Spark 程 序 ， 也 可 以 在 IPython 会 话 中 进行 。 还 可 以 先 开 发 程序 ， 然 后 
通过 pvspark 命 令 运 行程 序 。 





























8.6 小 结 


本 章 介 绍 了 用 IPython 进 行 高 性 能 科学 计算 的 相关 概念 。 首先 介绍 了 并 行 计算 的 基本 概念 , 然 
后 介绍 了 IPython 并 行 计算 的 具体 结构 。 之 后 ， 演 示 了 简单 并 行程 序 的 开发 、IPython 魔 法 函数 以 
及 并 行 装 饰 咒 。 

本 章 还 介绍 了 IPython 的 高 级 特性 : 容错 机 制 , 动态 负载 均衡 , 任务 之 间 的 依赖 关系 管理 ， 客 
户 端 与 引擎 之 间 对 象 的 移动 ，IPython 的 数据 库 支持 ， 在 IPython 中 使 用 MPI， 用 StarCluster 通 过 
IPython 管 理 Amazon EC2 远 程 集群 。 随 后 ， 还 介绍 了 Python 的 多 进程 和 多 线程 编程 。 最 后 ， 简 单 
介绍 了 使 用 Hadoop 和 Spark 在 Python 中 开发 分 布 式 应 用 的 方法 。 


下 一 章 将 介绍 一 些 用 Python 的 科学 计算 工具 和 API 解 决 真实 问题 的 案例 ， 还 将 介绍 不 同 基础 
与 高 级 科学 领域 中 的 若干 应 用 。 
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案例 介绍 


”~ 











本 章 将 介绍 一 些 通过 Python 设 计 与 开发 的 科学 计算 应 用 、API/ 程 序 库 和 工具 的 例子 。 
即将 介绍 的 Python 应 用 主要 涉及 以 下 科学 领域 : 


口 专业 领域 硬件 /软件 
口 气象 学 应 用 
口 设计 与 建 模 
口 高 能 物理 应 用 
口 计算 化 学 

口 生物 学 

口 租 入 式 系统 








这 些 应 用 、 工 具 和 程序 库 涵 盖 社 会 、 科 学 与 商业 领域 ,包括 NGO 应 用 、 科 学 教育 的 软 硬 件 、 
气象 学 应 用 等 。 还 包括 航空 器 的 概念 设计 程序 库 、 地 震 风险 评估 的 应 用 以 及 生产 制造 过 程 中 的 能 
源 利 用 率 监 控 软 件 。 除 此 之 外 ,还 有 高 能 物理 分 析 代 码 生成 器 、 计 算 化 学 应 用 、 育 音 触 觉 识 别 系 
统 、 空 中 交通 管制 应 用 、 节 能 灯 伦 人 式 系统 、 船 舶 设计 程序 库 以 及 分 子 建 模 工具 包 。 
































9.1 用 Python 开发 的 科学 计算 应 用 


Python 是 开发 科学 计算 应 用 的 主流 语言 ， 尤 其 适合 开发 那些 低 成 本 、 高 性 能 的 应 用 。 后 面 几 
个 小 节 将 介绍 Python 在 这 方面 的 应 用 、 工 具 和 产品 。 








9.1.1 “每 个 孩子 一 台 笔 记 本 ”项 目 用 Python 开发 表 面 


每 个 孩子 一 台 笔 记 本 (One Laptop per Child，OLPC ) 是 麻 省 理工 学 院 (MIT ) 发 起 的 项 目 。 
这 个 项 目 得 到 了 许多 软 硬 件 开 发 者 的 大 力 支 持 ， 并 通过 强大 的 Python 社区 实现 了 OLPC 的 使 命 。 
该 项 目 背 后 的 理念 是 开发 装 有 创新 性 软 硬 件 的 、 低 价格 教学 用 笔记 本 电脑 。OLPC 的 使 命 简 单 且 
令 人 信服 , 就 是 通过 一 台 安 装 了 可 以 协作 学 习 的 软件 和 应 用 且 低 价格 、 低 功 耗 的 笔记 本 电脑 ,让 
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贫穷 的 孩子 获得 教育 的 机 会 。 这 个 使 命 的 主要 目标 就 是 要 生产 和 发 布 一 台 低 成 本 、 低 功 耗 的 笔记 
本 OLPC XO。 这 人 台 笔记 本 是 由 中 国 台 湾 的 量子 计算 机 公司 (Quanta Computer ) 制造 的 。 和 其 他 
笔记 本 不 同 的 是 , 这 人 台 机 器 使 用 闪存 , 没 用 硬盘 , 而 且 安装 Fedora 的 Linux 发 行 版 , 还 支持 802.11s 
通信 协议 的 无 线 网 。XO 笔 记 本 的 照片 如 下 图 所 示 。 









































图 片 来 源 : http://images.flatworldknowledge.com/lule/lule-fig13_004.jpg 


Sugar 是 一 个 自由 开源 的 桌面 环境 ， 主 要 用 于 交互 式 学 习 ， 它 是 XO 系统 的 交互 界面 。Sugar 
没有 桌面 、 文 件 夹 和 窗口 的 概念 。 它 是 从 主 视 图 开始 ， 用 户 可 以 从 主 视图 屏幕 中 选择 不 同 的 活动 
(activity )。Sugar 里 的 应 用 都 被 称 为 activity"。activity 包 括 应 用 以 及 共享 和 协作 的 能 力 。 为 了 保存 
Sugar 应 用 的 状态 和 历史 ，Sugar 开 发 了 一 个 日 志 功 能 为 用 户 恢复 应 用 状态 。 日 志 会 自动 记录 用 户 
的 会 话 任 务 , 并 提供 了 接口 来 按照 日 期 恢复 历史 状态 。 每 个 activity 都 可 以 与 内 置 的 日 志 功能 以 及 
其 他 功能 的 接口 进行 对 接 ， 例 如 剪贴 板 。Sugar 的 activity 都 是 全 屏 ， 一 次 只 能 运行 一 个 程序 。 

Sugar 可 以 支持 不 同 的 系统 平台 。 

口 XO 笔记 本 : XO 笔记 本 以 Sugar 为 默认 界面 。 
口 CD 启动 盘 和 USB 启 动 盘 : Sugar 也 可 以 直接 通过 CD 和 USB 启 动 。 


口 Linux 发 行 版 的 软件 包 : Sugar 也 是 各 种 Linux 发 行 版 的 软件 包 一 一 也 是 一 种 桌面 环境 。 
口 虚拟 镜像 : Sugar 可 以 通过 虚拟 机 安装 在 Windows 和 苹果 操作 系统 上 ”。 


在 Sugar 中 ，Python 可 以 开发 各 种 各 样 的 Sugar 应 用 /activity。 开 发 者 可 以 使 用 Python 扩展 Sugar 
的 功能 ， 向 里 面 增加 新 应 用 /activity。Sugar 的 主 视图 如 下 图 所 示 。 































































































Q@ 和 Android 系 统 类 似 。 一 一 译 者 注 
@ 也 有 Docker 版 本 。 一 一 译 者 注 
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图 片 来 源 : http:/2.bp.blogspot.com/ PPJgeknwAe5o/S 8kh3rlqI/AAAAAAAAAGKk/ 
qmJdLaelpQ8/s1600/2009-SugarLabs-Homeview.png 





启动 XO 笔 记 本 之 后 ， 它 就 可 以 自由 地 获取 Python 社区 的 强大 支持 。 它 还 是 一 个 开源 软件 ， 


开发 者 可 以 理解 和 改善 它 。XO 笔 记 本 有 一 个 高 分 辨 率 、 易 于 阅读 的 显示 屏 ， 而 且 文 持 多 种 语言 
的 电子 书 模式 。XO 笔 记 本 的 电子 书 模式 如 下 图 所 示 。 











图 片 来 源 : http://regmedia.co.uk/2008/01/16/ebook.jpg 
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科学 之 眼 


印度 的 大 学 联合 加 速 中 心 ( Inter University Accelerator Centre，IUAC ) 有 一 个 项 目 是 自制 设 
备 与 创新 物理 实验 ( Physics with Homemade Equipment and Innovative Experiments ，PHOENIX )。 
其 主旨 是 要 通过 实验 改善 科学 教育 的 质量 。 项 目的 主要 目的 就 是 开发 低 成 本 的 实验 设备 。 另 一 个 
分 支 项 目 是 青年 工程 师 与 科学 家 实验 ( Experiments for Young Engineers and Scientists, ExpEYES )， 
其 重点 是 通过 做 实验 学 习 知 识 。 ExpEYES 适 合 高 中 和 更 高 年 级 的 学 生 使 用 。 满足 其 主要 目标 的 设 
计 是 一 个 低 成 本 的 设备 ”"。 这 个 设备 通过 5 V 的 USB 电 源 供电 。 


要 使 用 ExpEYES, 首先 需要 在 电脑 上 安装 驱动 软件 , 然后 通过 USB 线 将 它 连接 到 电脑 上 。 在 
它 的 两 侧 共 有 32 个 IO 接口 可 以 连接 外 部 信号 。 用 户 可 以 控制 和 监视 设备 的 电压 。 要 测量 力量 、 
气压 、 温 度 等 信息 , 用 户 可 以 通过 传感器 将 信息 转换 成 电信 号 。 例 如 ,温度 传感器 会 通过 电压 显 
示 不 同 的 温度 值 。ExpEYES 的 外 观 如 下 图 所 示 。 





9.1.2 ExpEYES 



















































































图 片 来 源 : http://expeyes.in/sites/default/files/images/diode-rectifier-photo.jpg 


真正 的 学 习 过 程 需要 不 断 地 探索 并 动手 实验 。 物理 实验 需要 控制 与 测量 不 同 的 参数 , 例如 加 
速度 、 电 流 、 力 、 气 压 、 温 度 、 速 度 、 电 压 等 物理 量 。 有 时 也 需要 自动 测量 一 些 快速 变化 的 物理 
量 (例如 AC 交 流 电 压 )。 这 些 自动 化 测量 技术 需要 计算 机 的 参与 。 

用 一 个 Python 解释 器 和 Python 模块 接 和 人 串 行 端口 ， 这 在 任何 电脑 上 运行 ExpEYES 都 是 必 备 
的 。 设 备 驱动 程序 会 识别 USB 端 口 ， 驱 动 会 把 USB 端 口 作为 应 用 程序 的 RS232 端 口 。ExpEYES 的 
通信 部 分 用 Python 语言 写 的 程序 库 处 理 。 还 有 GUI 程序 可 以 支持 每 一 个 实验 。 用 户 还 可 以 为 新 实 























中 单片机 。 一 一 译 者 注 
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验 自 行 开 发 界面 。ExpEYES 可 以 通过 CD 光盘 启动 ， 也 可 以 在 Linux 和 Windows 系 统 上 安装 。 它 是 
一 款 性 价 比 很 高 的 科学 实验 室 ， 既 轻便 又 很 容易 扩展 。 它 可 以 支持 大 量 的 科学 实验 ， 从 高 中 到 研 
究 生 阶段 都 适用 。 


最 新 的 ExpEYES 版 本 是 ExpEYES Junior。 这 版 ExXpEYES 增 加 了 一 些 新 功能 , 早期 版 本 的 一 些 
简单 功能 被 移 除了 。 它 还 可 以 和 Android 智 能 设备 进行 交互 。ExpEYES Junior 的 界面 如 下 图 所 示 。 





























图 片 来 源 : http://expeyes.in/sites/default/files/Experiments/Photos/half-wave.jpg 

最 初 的 软件 是 用 C 语 言 写 的 ， 很 快 就 迁移 到 了 Python 上 。 这 样 的 改变 有 两 个 好 处 。 第 一 个 好 
处 是 显著 增强 了 ExpEYES 开 发 GUI 程序 的 能 力 。 另 一 个 好 处 是 通过 Python 与 硬件 交互 可 以 让 实验 
的 开发 变 得 更 简单 。 








9.1.3 Python 开发 的 天 气 预测 应 用 程序 


通常 ,气象 学 家 会 将 自己 的 预测 结果 与 真实 的 天 气 进行 比较 ,观察 气象 周期 。 这 么 做 可 以 优 
化 和 改善 模型 的 质量 , 模型 需要 收集 真实 的 天 气 测量 值 的 数据 。ForecastWatch 可 以 帮助 气象 学 家 
们 对 比 、 观 察 、 理 解 预测 数据 的 准确 性 。 它 可 以 提供 基础 的 分 析 和 无 偏 的 数据 ， 从 而 改进 预测 效 
果 。ForecastWatch 不 断 地 从 多 个 气象 数据 源 收集 预测 数据 ,然后 根据 真实 情况 为 预测 数据 加 上 标 
签 。 它 会 对 比美 国 和 加 拿 大 850 多 个 观测 点 的 预测 值 和 实际 值 。 温 度 、 天 气 状况 、 降 雨量 和 风力 
风向 等 指标 的 高 低 都 会 进行 对 比 。ForecastWatch 还 可 以 生成 月 度 统 计 值 ， 并 按照 国家 、 州 、 地 区 
进行 不 同 区 域 的 聚合 。 
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ForecastWatch 由 以 下 四 部 分 构成 。 


口 获取 预测 的 气象 数据 : 这 是 一 个 预测 数据 解析 器 ， 它 会 从 每 个 预测 数据 源 的 网 络 接口 收 

集 数 据 。 它 会 先 解析 数据 ， 然 后 把 数据 存 人 数据 库 ， 等 待 与 真实 数据 做 比较 。 

口 获取 实际 测量 的 气象 数据 : 这 是 一 个 真实 数据 解析 器 ， 它 会 从 美国 国家 气象 数据 中 心 的 

国家 气象 服务 平台 收集 真实 气象 数据 。 数 据 包括 最 高 与 最 低温 度 、 降 雨量 、 重 大 气象 事 
件 。 真 实数 据 解析 器 会 将 数据 存储 到 数据 库 ， 然 后 与 预测 数据 对 比 评分 ， 最 后 把 分 数 保 
存 下 来 。 

口 数据 聚合 引擎 : 对 数据 进行 存储 和 评分 之 后 , 通过 数据 聚合 引擎 (data aggregation engine ) 

按照 不 同 的 时 间 段 ( 月度、 年 度 、 任 意 天 数 )、 地 点 、 数 据 源 进 行 聚合 。 

口 网 络 应 用 框架 : 最 初 ， 网 页 是 用 PHP 设 计 的 ， 后 来 用 Python 重新 设计 了 。 通 过 Python 重新 

设计 简化 了 网 络 开 发 过 程 , 并 可 以 与 系统 中 的 其 他 模块 更 好 地 衔接 。Python 网 络 应 用 框架 

是 Quixote， 可 以 开发 纯 Python 的 网 络 应 用 。 


这 是 一 个 纯 Python 的 应 用 ， 通 过 Python 开发 了 系统 的 所 有 四 个 模块 ， 从 有 趣 的 Web 界 面 到 耗 
时 的 输入 与 输出 数据 收集 模块 ， 以 及 高 性 能 的 数据 聚合 引擎 。 开 发 者 之 所 以 选择 Python， 是 因为 
它 有 大 量 的 标准 程序 库 ， 可 以 收集 数据 、 分 析 数 据 ， 并 将 数据 存储 到 数据 库 中 。 多 进程 程序 库 可 
以 扩展 解析 器 的 功能 ， 同 时 收集 多 个 城市 的 数据 。 数 据 聚 合 引擎 也 是 用 Python 开发 的 ， 通 过 数据 
库 拉 连接 模块 MySQLdb 在 MySQL 里 执行 SQL 语句 ， 让 输入 程序 存储 预测 和 气象 数据 。 



















































































































































































9.1.4 Python 开发 的 航空 器 概念 设计 工具 与 API 


这 一 节 将 分 别 介绍 支持 航空 器 概念 设计 的 一 个 工具 和 一 个 API。 首 先 将 介绍 VAMPzero 工 具 ， 
之 后 介绍 pyACDT API。 














德国 宇航 局 (German Aerospace Centre， 德 语 简称 DLR ) 是 德国 国家 航空 、 能 量 与 运输 研究 
机 构 。 它 的 主要 任务 是 进行 航空 与 航天 研究 ， 并 开发 研究 需要 的 工具 软件 。DLR 用 Python 开发 工 
具 和 API。 


VAMPzero 是 航空 央 概 念 设计 的 软件 工具 。 它 帮助 德国 宇航 局 在 航空 器 概念 设计 过 程 中 攻坚 
克 难 , 游 九 有余。 航空 器 设计 的 需求 变化 得 非常 快 ,因此 它们 需要 一 直 使 用 最 新 的 技术 .VAMPzero 
的 灵活 性 可 以 让 用 户 轻松 调整 设计 方案 。VAMPzero 使 用 主流 的 手册 方法 ， 具 有 高 度 扩展 性 。 
VAMPzero 可 以 跟踪 计算 历史 , 并 将 数据 导出 为 CPACS 格 式 。 利用 VAMPzero 设 计 一 个 新 系统 , 包 
括 外 部 尺寸 、 引擎 、 结 构 、 系 统 和 成 本 。VAMPzero 是 支持 多 学 科 环 境 的 航空 器 概念 设计 的 第 一 
个 开源 工具 。VAMPzero 使 用 的 编程 语言 是 Python。 其 开发 目的 是 打造 一 款 可 以 快速 完成 航空 
设计 过 程 的 工具 。 































































































pyACDT (Python aircraft conceptual design toolbox ，Python 航 空 器 概念 设计 工具 包 ) 是 一 款 
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由 加 拿 大 皇家 军事 学 院 的 先进 航空 需 设 计 实 验 室 (Advanced Aircraft Design Lab ) 的 科学 家 开发 
的 框架 。pyACDT 是 基于 Python 的 面向 对 象 框 架 ， 可 以 实现 航空 右 的 功能 分 析 、 定 义 、 设 计 与 优 
化 。 它 用 独立 的 模块 分 别 表示 概念 设计 阶段 的 几 个 主要 的 学 科 分 析 内 容 。 这 个 框架 通过 面向 对 象 
编程 的 概念 实现 了 各 种 航空 器 的 组 件 、 引 人 擎 、 特 征 以 及 学 科 分 析 。pyACDT 与 不 同学 科 关 联 的 主 
要 模块 如 下 图 所 示 。 这 个 框架 的 设计 可 以 让 用 户 轻松 地 改变 约束 条 件 、 设 计 变量 、 学 科 分 析 与 目 
标 函 数 。 



































9.1.5_ OpenQuake 引擎 


全 球 地 震 模式 〈Global Earthquake Model ) 是 由 多 个 地 区 、 国 家 和 国际 级 的 组 织 与 众多 个 人 
开发 者 共同 努力 组 建 的 世界 地 震 风 险 计算 与 通信 的 统一 开放 标准 。 基 金 会 是 公私 合作 的 ,其 几 千 
会 员 通 过 不 同 的 形式 做 贡献 ,可 以 是 时 间 , 也 可 以 是 知识 。 这 个 组 织 有 不 同 的 国际 项 目 ， 如 果 一 
个 人 使 用 并 测试 了 GEM 的 软件 ， 总 结 项 目 结果 ， 参 加 会 议 ， 就 可 以 成 为 一 个 用 户 。GEM 从 事 的 
活动 至 关 重要 ,因为 地 震 爆发 的 可 能 性 与 日 俱 增 , 世界 上 大 部 分 地 区 都 缺乏 可 靠 的 地 震 风 险 评 估 
工具 和 数据 。 另 外 ,人 们 也 缺乏 一 套 国际 标准 来 对 比 不 同 的 风险 分 析 结 果 。 如 果 想 正确 地 理解 地 
震 的 后 果 与 行为 ， 全 球 合作 就 显得 更 加 可 取 了 。GEM 就 是 在 这 种 背景 下 创建 的 。 

GEM 基 金 会 的 关注 领域 主要 有 以 下 儿 个 。 

口 地 震 风险 评估 工具 : 主要 任务 是 设计 、 开 发 、 增 强 高 质量 的 地 震 风 险 评估 工具 。 

口 地 震 风险 信息 : GEM 也 致力 于 引领 地 震 数据 收集 与 生成 的 方法 和 原则 ， 以 及 地 震 风 险 分 9 
析 模 型 。 

口 协同 风险 评估 项 目 : GEM 基 金 会 的 工作 还 包括 发 展 并 实施 不 同 规模 的 协同 风险 评估 项 目 。 

口 技术 转移 与 能 力 开发 : GEM 还 致力 于 地 震 风险 评估 的 能 力 开发 与 知识 传递 。 
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科学 家 们 找到 了 GEM 这 个 组 织 就 可 以 为 地 震 风险 评估 积累 优秀 的 经 验 ， 创 造 共 同 的 数据 库 ， 
开发 模型 。GEM 把 大 家 的 贡献 汇集 在 网 页 版 的 OpenQuake 工 具 箱 中 。 世界 各 地 的 利益 相关 者 都 可 
以 获取 这 个 工具 箱 。OpenQuake 引 擎 是 用 Python 写 的 ， 工 程 师 、 财 务 专家 、 政 府 官员 、 科 学 家 都 
可 以 用 它们 评估 地 震 风险 。 


OpenQuake 是 一 个 网 页 版 的 风险 评估 工具 ,提供 了 计算 、 可 视 化 、 研 究 地 震 风险 的 一 体 化 环 
境 ， 可 以 捕获 新 数据 ， 还 能 分 享 协同 学 习 的 结果 。 


OpenQuake 有 五 个 用 于 地 震 风 险 评估 与 缓解 的 不 同方 面 的 计算 器 。 这 些 计 算 顺 的 简介 如 下 
所 示 。 


口 地 震 风险 计算 器 : 这 个 计算 器 主要 用 于 增强 公众 对 地 震 风险 的 意识 ， 以 及 作出 合理 的 应 

急 计 划 和 管理 。 它 可 用 来 计算 一 组 既定 资产 在 一 次 地 震中 的 损失 和 损失 统计 量 。 

口 地 震 损失 评估 计算 器 : 这 个 计算 器 用 于 评估 不 同类 型 资产 在 地 震中 可 能 受到 的 破坏 程度 。 

它 可 以 评估 一 组 资产 中 的 某 一 项 资产 在 地 震中 遭受 的 损害 。 

口 基于 概率 事件 的 风险 计算 器 : 这 个 计算 器 主要 用 于 计算 一 组 资产 在 地 震中 可 能 遭受 的 总 

损失 。 可 以 通过 概率 论 与 数理 统计 方法 对 一 组 资产 可 能 遭受 的 损失 进行 统计 。 

口 基于 PSHA 的 计算 器 : 这 个 计算 器 的 输出 可 以 用 来 对 不 同 地 点 的 资产 进行 地 震 风 险 缓 解 优 
先 级 排序 。 计 算 顺 会 计算 单个 资产 的 损失 概率 和 损失 统计 。 针 对 不 同 地 点 的 资产 的 这 些 
计算 还 可 以 作为 资产 间 相 对 风险 评估 的 依据 。 

口 风险 -收益 率 计 算 器 : 这 个 计算 器 用 于 对 需要 采取 加 固 措施 的 不 同 地 区 进行 优 级 先 排序 ， 

以 及 找 出 对 一 个 地 区 来 说 经 济 适用 的 抗震 设计 。 它 可 以 计算 和 评估 针对 某 些 建筑 的 改造 

或 加 固 措施 是 否 在 经 济 上 富有 成 效 。 


























































































































9.1.6 ”德国 西 马克 公司 的 能 源 效 率 应 用 程序 


德国 西 马克 技术 有 限 公司 (SMS Siemag AG ) 是 冶金 工厂 与 轧钢 领域 的 巨头 。 该 公司 的 一 部 
分 业务 是 为 客户 改善 其 工厂 的 能 源 利用 率 , 以 及 工厂 对 环境 的 影响 。 西 马克 把 这 部 分 业务 称 为 生 
态 模式 ( Eco Mode )。 在 这 种 模式 下 ， 在 特定 的 时 间 里 ， 不 需要 使 用 的 设备 会 自动 关闭 或 进入 闻 
能 模式 。 这 个 自动 化 过 程 是 通过 Python 写 的 软件 实现 的 。 这 个 Python 写 的 软件 可 以 测量 并 记录 不 
同 设备 的 能 源 消 耗 情况 。 然 后 , 通过 分 析 日 志 就 可 以 知道 不 同 操作 模式 下 生产 不 同 发 电机 组 的 能 
量 消耗 。 







































































9.1.7 ”高 能 物理 数据 分 析 的 自动 代码 生成 器 


大 型 强 子 对 撞 机 ( Large Hadron Collider，LHC ) 是 世界 上 最 大 的 粒子 物理 实验 和 人造 机 右 。 这 
个 机 器 的 使 命 是 验证 粒子 物理 学 理论 并 探索 新 粒子 。 这 开启 了 高 能 物理 的 新 纪元 。 
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这 是 迄今 为 止 最 大 的 科学 实验 ， 主 要 介绍 如 下 : 


口 将 近 100 个 国家 参与 其 中 

口 大 约 有 500 个 研究 机 构 共同 合作 

口 大 约 10 000 个 人 从 事 或 得 益 于 该 实验 
D 项 目 成 本 高 达 40 亿 欧元 

口 LHC 的 隧道 长 度 达 到 27 千 米 


这 个 巨大 的 机 器 每 年 会 产生 10 PT 的 数据 ， 单 节点 设备 无 法 存储 如 此 庞大 的 数据 。 为 了 解决 
这 个 问题 ， 为 此 ，CERN ( 欧洲 粒子 物理 研究 所 ) 联合 世界 上 几乎 所 有 的 高 能 物理 研究 机 构 ， 开 
发 了 一 种 网 格 计算 环境 。 这 个 网 格 通过 机 构 间 的 网 络 、 共 享 的 存储 空间 和 电力 构成 巨大 的 并 行 处 
理 系统 。 为 了 获得 更 高 的 性 能 ， 分 析 工作 是 在 数据 所 在 的 系统 上 透明 执行 的 。 


在 LHC 的 隧道 中 ,， 有 两 个 质子 束 循环 对 流 。 它 们 每 25 纳 秒 会 在 四 个 实验 点 进行 对 撞 。 撞击 之 
后 会 产生 许多 粒子 。 其 中 有 些 是 已 知 的 粒子 ， 有 些 可 能 是 新 的 、 未 知 的 粒子 。 


如 果 要 从 对 撞 数 据 中 抽取 适当 的 信息 ， 物 理学 家 们 需要 为 自己 感 兴趣 的 每 一 个 物理 量 写 代 
码 。 只 有 当 物 理 量 一 次 性 运行 通过 时 ,代码 才 是 有 效 的 。 但是, 他们 需要 写 很 多 这 样 的 分 析 代 码 
来 扫描 所 有 可 能 的 新 物理 量 。 这 些 代 码 基 本 类 似 ， 大 部 分 通过 复制 粘贴 就 可 以 搞定 。 通常 这 些 代 
码 可 能 容易 出 错 ， 因 此 有 许多 代码 需要 调试 与 维护 。 


为 了 解决 这 个 问题 ，CERN 的 科学 家 们 为 高 能 物理 社区 提供 了 一 个 新 方法 一 -用 Python 开发 
了 一 个 计算 机 辅助 的 软件 工程 包 , 来 处 理 常 用 代码 和 算法 以 及 自动 生成 分 析 代 码 。 代 码 是 由 用 户 
输入 自动 生成 的 ,所 以 更 高 效 ， 也 更 不 易 出 错 。 由 于 分 析 代码 是 自动 生成 的 ， 所 以 物理 学 家 可 以 
恰当 地 处 理 物 理学 部 分 。 这 个 软件 包 的 名 字 叫 WatchMan ， 是 一 个 用 纯 Python 写 成 的 面向 对 象 杠 
架 。 它 可 以 让 物理 学 家 把 精力 集中 在 分 析 上 , 不 需要 担心 分 析 代 码 ， 因 为 它 可 以 根据 用 户 的 设置 
生成 完整 的 分 析 代 码 。 它 是 用 CERN 用 Python 开 发 的 两 个 工具 开发 的 : PyROOT ( Python 数据 分 析 
工具 箱 ) 和 rootcint (Python 和 C++ 绑 定 系统 )。WatchMan 的 处 理 流程 如 下 图 所 示 。 
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9.1.8 ”Python 的 计算 化 学 应 用 


英国 阿 斯 利康 (AstraZeneca ) 是 一 家 知名 的 医药 公司 ,生产 治疗 恶性 肿瘤 、 心 血管 疾病 、 肠 
胃病 与 其 他 感染 病 的 药物 , 还 有 止 疼 药 及 治疗 其 他 疾病 的 药物 。 通常 , 研发 一 款 新 药 需 要 很 长 时 
间 (通常 是 几 十 年 )。 最 大 的 难题 就 是 尽 可 能 快速 地 从 大 量 分 子 中 找 出 可 能 制 成 良药 的 分 子 。 


有 一 些 技术 可 以 预测 分 子 的 属性 与 行为 。 这 些 技术 由 计算 化 学 家 发 明 , 用 于 确保 分 子 对 身体 
无 毒害 且 稳定 ， 可 以 完成 既定 的 活动 ， 而 且 可 以 自动 消失 。 


这 些 技术 的 问题 在 于 ， 光 靠 它 们 的 结果 还 不 够 充分 ,化 学 家 还 需要 完成 真实 的 医学 实验 。 必 
须 在 实验 室 里 测试 这 些 分 子 , 观察 它们 的 行为 和 反应 。 为 了 节省 测试 时 间 ， 用 不 同 的 计算 模型 来 
快速 挑选 最 好 的 候选 分 子 。 


在 阿 斯 利康 加 强 药物 鉴定 过 程 之 前 ， 实 验 化 学 家 和 计算 化 学 家 在 药物 鉴定 中 是 彼此 依赖 的 。 
实验 化 学 家 不 会 接触 许多 计算 技术 ,计算 化 学 家 应 该 帮助 实验 化 学 家 用 计算 机 预测 数据 ,这 个 预 
测 过 程 非常 复杂 。 这 种 依赖 关系 既 会 影响 计算 化 学 家 的 工作 效率 ,也 会 影响 实验 化 学 家 的 工作 效 
率 ， 因 为 计算 化 学 家 需要 花 大 量 的 时 间 重复 做 同样 的 计算 ， 没 有 精力 开发 新 的 预测 技术 。 如 果 有 
某 种 技术 可 以 让 实验 化 学 家 自己 用 计算 机 进行 预测 ,那么 作业 流程 就 可 以 得 到 改善 , 药物 预测 过 
程 也 会 变 得 更 加 简单 快 


Pierre Bruneau 用 Perl 脚 本 设计 了 一 款 成 功 的 网 页 版 分 析 工 具 。 这 个 工具 使 用 了 分 子 属性 计算 
器 工具 Drone。 阿 斯 利康 利用 了 这 个 工具 来 增强 其 后 端 工具 Drone, 使 得 它 更 好 管理 、 更 具 扩展 性 、 
更 健 灶 。 这 个 新 的 后 端 工 具 叫 作 PyDrone。 


PyDrone( 用 Python 开发 的 ) 添 加 了 强大 的 显 式 异常 处 理 和 严格 的 类 型 检查 功能 , 以 增强 Drone 
的 稳定 性 。 起 初 , 在 测试 阶段 , PyDrone 会 把 那些 原来 在 Drone 里 是 隐 式 处 理 的 异常 都 显 式 地 抛 出 。 
开发 者 发 现 , 这 些 异常 识别 出 了 之 前 没有 处 理 过 的 新 异常 情况 。 新 版 本 的 代码 增加 了 对 这 类 异常 
的 处 理 ， 提 高 了 系统 稳定 性 ， 因 为 越 来 越 多 的 异常 可 以 得 到 正确 处 理 了 。 


为 了 提高 PyDrone 的 扩展 性 ， 化 学 家 们 开发 了 一 个 规则 库 。 这 个 规则 库 由 一 些 属性 提前 计算 
好 的 数据 缓存 和 属性 名 称 构成 ， 用 于 预测 用 户 输入 的 函数 名 称 。 

这 个 规则 库 类 似 于 Python 的 字典 对 象 。 用 户 请 求 一 个 属性 时 ， 它 首先 在 缓存 数据 中 寻找 ， 如 
果 找 到 了 ， 就 直接 使 用 缓存 数据 ; 如 果 没 找到 ， 就 调用 相关 函数 进行 计算 。 

这 个 结果 会 保留 在 规则 库 中 以 便 下 次 使 用 。 在 新 的 预测 过 程 中 , 开发 者 可 以 增加 新 函数 到 函 
数 表 中 。 通 过 这 种 方式 ，PyDrone 就 可 以 管理 所 有 的 函数 ， 并 预测 用 户 输入 的 函数 名 称 。 
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9.2 ”Python 开发 的 盲 音 触觉 识别 系统 


盲 音 触 觉 识 别 系统 ( Blind Audio Tactile Mapping System，BATS ) 为 盲人 提供 地 图 。 在 这 个 
软件 发 明之 前 , 世界 上 没有 盲人 可 以 使 用 的 地 图 。 这 个 项 目 是 由 美国 北 卡罗来纳 大 学 的 一 个 研究 
小 组 发 起 的 。 开 发 语言 使 用 Python， 而 不 是 Java 和 C++。 一 开始 小 组 内 部 争论 激烈 ， 因 为 大 家 更 
熟悉 Java 和 C++， 对 Python 则 了 解 不 多 。 最 终 ， 研 究 小 组 还 是 做 出 了 明智 的 决定 ， 使 用 Python 开 
发 ， 因 为 Python 有 许多 扩展 程序 库 和 模块 ， 适 合 开发 这 类 应 用 。 


BATS 使 用 的 是 北 卡 罗 来 纳 大 学 的 古代 世界 测绘 中 心 ( Ancient World Mapping Center ) 的 地 理 

言 息 数据 文件 。ArcView/ArcGIS 是 一 种 功能 齐全 的 GIS 软 件 ， 用 于 可 视 化 、 管 理 、 创 建 和 分 析 地 

理 数 据 。 一 开始 ， 人 研究 小 组 开发 了 两 个 ASCII 码 文本 文件 ， 用 于 显示 地 图 的 地 点 信息 和 海拔 。 这 
些 信息 用 1024x768 的 网 格 匹配 系统 中 使 用 的 显示 触摸 屏 的 分 辨 率 。 网 格 信 息 存 储 在 Python 数组 
中 。 数 据 会 被 压缩 以 适应 BATS 模 型 ， 然 后 存储 在 压缩 文件 中 。 程 序 将 数据 解压 缩 并 加 载 成 适当 
的 数据 结构 , 以 完成 快速 启动 。 显示 像素 与 文件 内 容 之 间 有 一 一 对 应 的 关系 。 这 个 系统 响应 迅速 ， 
可 以 敏捷 地 捕捉 用 户 的 动作 。 不 同 的 声音 /视觉 效果 被 用 来 表示 不 同 地 理 特征 ， 例 如 海洋 和 陆地 。 


BATS 由 两 个 主要 的 组 件 构成 ， 分 别 是 一 个 用 户 图 形 界面 和 一 个 数据 管理 器 。 数 据 管理 峰 让 
用 户 可 以 通过 图 形 界 面 管 理 数据 。 图 形 界面 中 有 一 个 触摸 板 、 一 些 数字 按键 和 一 个 声音 合成 髓 。 
用 户 在 触摸 板 上 的 动作 可 以 通过 wxPython 捕 捉 到 。wxPython 里 的 鼠标 动作 事件 可 以 对 用 户 动 作 进 
行 响应 , 这 些 事 件 会 查询 地 理 类 型 以 及 城市 数据 库 的 信息 。wxPython 可 以 用 声音 响应 鼠标 和 键盘 
动作 。BATS 还 使 用 微软 的 语音 API。 


wxPython 是 支持 多 平台 的 GUI 开发 API， 可 以 让 Python 程序 员 通 过 类 型 丰富 的 用 户 界面 和 事 
件 处 理 模 式 开 发 图 形 界面 。 

数据 管理 器 通过 三 个 数值 数组 存储 不 同 的 数据 ， 并 通过 一 个 ODBC 连 接 器 连接 微软 Access 数 
据 库 。 这些 数据 包括 海拔 、 土 地 类 型 和 数据 库 对 应 的 索引 键 值 。 这 个 键 值 用 来 查询 Access 数 据 库 ， 
获取 对 应 城市 位 置 上 的 具体 信息 。 








































































































































































































9.2.1 TAPTools 空中 交通 管制 工具 


开发 通用 的 空中 交通 管制 解决 方案 非常 有 挑战 性 ， 因 为 每 个 机 场 各 具 特 色 ， 如 整体 设计 、 
管理 规范 和 基础 设施 等 各 有 差异 。 最 主要 的 困难 是 每 个 客户 的 空中 交通 管制 系统 都 是 其 自 定义 
的 界面 。 

Frequentis 是 在 空中 交通 管理 、 公 共 安 全 和 交通 领域 首届 一 指 的 解决 方案 供应 商 。 他 们 通过 
Python 开 发 了 TAPTools 产 品系 列 ， 用 于 空中 交通 管制 的 灯塔 和 机 场 工具 。 空 中 管理 员 通 过 这 些 工 
具 控 制 跑道 灯光 和 导航 辅助 设备 ， 监 控 导 航 设备 ， 并 跟踪 天 气 条 件 。 
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为 每 个 用 户 开发 一 套 全 新 的 图 形 界面 是 非常 单调 和 费时 的 任务 。 为 了 解决 这 个 问题 ， 
Frequentis 开 发 了 一 个 设计 图 形 界面 布局 的 工具 ， 叫 PanView。 这 个 工具 可 以 设计 和 建立 用 户 图 形 
界面 ， 在 PanMachine 软 件 中 运行 。 这 个 软件 运行 在 专门 设计 的 硬件 PowerPanel 上 面 。 用 这 些 工具 
可 以 非常 快速 地 开发 界面 原型 。 起 初 ，PanView 和 PanMachine 使 用 Lua 语 言 。Lua 可 以 用 来 连接 用 
户 界面 与 空中 交通 管制 系统 的 各 项 功能 。 


和 Python 相 比 ，Lua 有 许多 问题 。 当 产生 错误 的 时 候 ， 它 能 提供 的 异常 信息 极 少 〈 不 方便 调 
试 )。Lua 也 没有 列表 数据 结构 ， 而 且 标准 库 内 容 很 少 ， 不 适合 构建 大 程序 。 


芬兰 民航 局 不 仅 想 在 PowerPanel 上 运行 用 户 界面 ， 而 且 还 想 在 网 络 浏览 器 上 使 用 。 为 了 能 在 
浏览 器 上 运行 程序 ，Frequentis 用 Java 重 写 了 PanMachine。 由 于 Lua 不 能 在 Java 下 运行 ，Frequentis 
用 Python 重新 实现 了 原来 Lua 的 功能 。 他 们 使 用 了 Python 和 Python 的 Java 实 现 版 本 Jython。 这 样 用 户 
就 可 以 在 用 Java 实 现 的 PowerPanel 和 PanMachine 上 运行 用 户 界 面 了 。 在 PowerPanel 上 面 ，Python 用 
C 语 言 实 现 ， 而 Jython 用 Java 实 现 , 用 于 浏览 器 运行 。 之 后 ，Frequentis 用 Python 重 写 了 了 Lua 布局 功能 
的 代码 。 相 比 Lua，Python 代 码 更 加 简洁 ， 也 更 容易 管理 。 









































9.2.2 ” 光 能 效率 检测 的 能 入 式 系统 


加 拿 大 Carmanah 技 术 公司 是 太阳 能 LED 照 明 市 场 的 领头 羊 。 它 是 多 种 用 途 照 明 设备 的 制造 企 
业 与 供应 商 , 包括 机 场 照 明 、 工 业 信号 灯 、 海 运 、 铁 路 、 公 路 以 及 运输 线 使 用 的 照明 设备 等 。 这 
家 企业 首先 研发 了 海运 导航 用 的 自动 供电 与 自主 控制 太阳 能 灯 。 目前 , Carmanah 的 市 场 遍 及 全 世 
界 ,尤其 是 一 些 特殊 环境 ， 如 海洋 、 沙 漠 、 北 极 等 。 这 些 年 ,电力 照 明 设 备 为 了 满足 自动 供电 与 
自主 控制 ， 变 得 越 来 越 复杂 。 这 些 灯 接收 的 有 效 太 阳 能 比率 会 随 着 天 气 、 季 节 、 光 的 位 置 、 太 阳 
能 板 的 角度 以 及 其 他 属性 的 变化 而 变化 。 还 有 一 些 其 他 需求 , 例如 灯 需 要 支持 可 编程 界面 ,对 输 
入 数据 反馈 不 同 的 输出 结果 ， 通 过 无 线 网 连接 到 控制 中 心 ， 以 及 其 他 复杂 的 需求 。 


设计 与 开发 这 种 灯具 ， 还 需要 结合 电力 、 电 子 、 机 械 与 光学 等 多 个 专业 的 知识 。 每 个 灯 都 是 
用 运行 在 微 控制 器 上 的 嵌入 式 软件 程序 进行 控制 。 这 类 灯具 都 可 以 进行 自动 控制 ,并且 根据 客户 
需求 完成 特定 的 功能 。 


通常 , 能 入 式 系统 的 组 件 都 需要 具备 稳定 性 高 、 能 耗 低 、 体 积 小 的 特点 。 为 了 实现 这 些 需 求 ， 
人 们 发 明了 微 处 理 器 这 种 特殊 的 处 理 吕 芯片。 这 些微 处 理 器 是 把 CPU 、 内 存 和 外 围 设 备 集成 在 一 
块 能 耗 极 低 的 芯片 上 。 除 了 要 把 谍 入 式 程序 写 人 微 处 理 器 的 ROM 中 ， 在 开发 与 维护 阶段 ， 还 有 
一 些 函 数 需 要 使 用 台式 机 或 笔记 本 电脑 来 完成 。 


现在 假如 有 一 个 府 和 人 式 系统 需要 在 普通 系统 上 编译 , 目标 代码 已 经 加 载 到 微 处 理 器 里 了 。 类 
似 的 情况 还 有 , 在 设备 维护 时 ， 需 要 添加 额外 的 硬件 才能 对 已 经 部 署 好 的 设备 进行 异常 检测 ， 例 
如 需要 一 台 笔 记 本 电脑 来 运行 诊断 工具 。Python 的 许多 特性 都 非常 适合 进行 嵌入 式 系统 开发 。 这 
些 特性 包括 Python 程序 的 简洁 短小 、 自 动 内 存 管理 、 简 单 强大 的 面向 对 象 特性 等 。 
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Carmanah 技 术 公 司 在 能 入 式 系统 开发 周期 的 若干 关键 阶段 中 采用 Python。 例 如 ， 通 过 Python 
程序 控制 软件 开发 过 程 、 压 力 测试 和 单元 测试 、 设 备 模 拟 顺 ， 等 等 。 











9.3 ”Python 开发 的 科学 计算 程序 库 


在 Python 里 ， 有 许多 程序 库 可 以 应 用 于 多 个 领域 。 这 些 程序 库 既 可 以 应 用 于 商业 领域 ， 也 可 
以 进行 科学 计算 。 下 面 的 内 容 就 是 介绍 一 些 应 用 于 科学 计算 领域 的 程序 库 。 











9.3.1 Tribon 公司 的 船舶 设计 API 


Tribon Solutions 公 司 " 长 期 致力 于 船舶 计算 机 辅助 设计 与 建 模 解决 方案 。 其 业务 重心 是 改善 
船舶 应 用 的 整体 效率 。Tribon 软 件 集 可 以 支持 船舶 建造 的 整个 生命 周期 。 这 就 需要 高 度 并 发 的 过 
程 配 合 建造 需求 。 他 们 为 从 事 船 舶 设计 与 建造 的 人 开发 了 一 个 中 央 资 料 库 和 单 点 信息 源 。 这 个 模 
型 被 称 为 产品 信息 模型 ( Product Information Model，PIM )。 这 些 人 可 以 是 设计 师 、 材 料 管理 者 、 
制造 团队 的 成 员 、 策 划 人 以 及 其 他 涉及 整个 建造 过 程 的 相关 人 员 。 


一 般 情 况 下 ,船舶 设计 方案 都 是 独一无二 的 , 但 是 设计 师 的 关注 点 是 通过 标准 化 和 数据 驱动 
设计 检验 流程 以 降低 成 本 。 这 个 过 程 由 供应 商 决定 , 因 供 应 商 不 同 的 设计 原则 、 管理 规范 和 标准 、 
设备 和 设施 的 条 件 而 变化 。Tribon 公 司 可 以 让 供应 商 根据 自己 的 需求 解决 这 些 问 题 。Tribon 公 司 
开发 了 一 套 简单 易 用 、 平 台独 立 、 可 扩展 、 可 构 入 的 API。 


Tribon 公 司 因 为 Python 的 许多 优秀 特性 而 选择 了 它 , 例如 可 扩展 和 可 能 入 、 没 有 许可 证 费用 、 
平台 独立 。Tribon 公 司 的 解决 方案 不 会 受到 Python 版 本 升级 的 影响 。 他们 的 客户 用 API 开 发 的 应 用 
是 平台 独立 的 ， 因 此 可 以 移植 到 不 同 的 平台 上 运行 ， 而 不 会 出 现任 何 问题 ， 也 不 需要 修改 代码 。 
这 些 解 决 方案 将 部 分 设计 过 程 的 周期 从 几 周 缩短 到 了 几 天 , 而且 改善 了 设计 的 整体 质量 。 这 是 因 
为 设计 、 计 算 和 其 他 过 程 都 自动 化 了 。 他 们 把 该 产品 命名 为 Tribon Vitesse。 






































































































































9.3.2 分子 建 模 工具 箱 


分 子 建 模 工具 箱 ( Molecular Modeling Toolkit，MMTK ) 是 在 生物 分 子 系统 中 对 分 子 进行 建 
模 与 仿真 的 Python 程序 库 。 这 是 用 Python 和 C 语 言 开 发 的 开源 程序 库 。 生 物 分 子 仿真 通常 都 需要 
很 长 时 间 , 一 般 都 要 几 周 。 仿 真 过 程 中 需要 利用 复杂 的 数据 结构 描述 生物 分 子 。 之 所 以 选择 Python 
和 C 语 言 , 是 因为 这 两 者 一 个 是 效率 高 的 解释 型 语言 , 一 个 是 性 能 好 的 编译 型 语言 。 对 于 复杂 的 、 
高 性 能 仿真 需求 ， 这 是 一 对 好 组 合 。 


之 所 以 选择 Python 而 不 是 TCL 和 Perl， 是 因为 其 具有 许多 优秀 特性 ， 比 如 可 以 与 编译 型 语言 
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整合 、 丰 富 的 第 三 方程 序 库 、 面 向 对 象 编程 范式 以 及 代码 的 可 读 性 。 


用 户 在 使 用 MMTK 的 时 候 会 觉得 它 是 一 个 纯 Python 库 ， 因 为 其 C 语 言 部 分 是 利用 Python 的 C 
语言 扩展 包 写 的 。 这 部 分 代码 只 用 在 时 间 与 性 能 要 求 高 的 地 方 。 例 如 ,交互 能 量 评 估 是 一 个 时 间 
密集 型 函数 , 能 量 最 小 化 和 生物 分 子 动力 学 是 需要 花 很 长 时 间 进 行 反复 迭代 计算 的 过 程 ; 它们 都 
需要 非常 高 的 性 能 。 这 些 函 数 都 通过 C 语 言 实现 ， 这 样 可 以 避免 Python 过 多 的 资源 消耗 。 另 外 ， 
MMTK 还 使 用 了 Python 的 数值 分 析 包 、LAPACK ( 线性 代数 包 ) 和 NetCDF 程 序 包 。MMTK 也 支 
持 内 存 共享 的 并 行 计算 ( 用 多 线程 ) 以 及 分 布 式 并 行 计 算 (用 MPI )。 


MMTK 在 设计 时 非常 注重 自身 的 扩展 性 。 用 户 不 需要 修改 原 代码 , 即 可 增加 新 的 函数 、 专 业 
术语 和 数据 类 型 。 MMTK 借 助 外 部 工具 实现 可 视 化 功能 , VMD 和 PyMOL 程 序 包 也 被 整合 在 里 面 。 
通常 ， 用 户 都 是 通过 Python 脚本 使 用 MMTKE 。 然 而 ， 有 一 些 程序 支持 图 形 用 户 界面 ， 如 
DomainFinder 和 nMOLDYN。 


MMTK 主 要 由 三 种 类 型 的 类 构成 。 第 一 种 类 型 是 表示 原子 与 分 子 的 类 , 以 及 管理 生物 分 子 和 
其 他 内 容 的 数据 库 的 类 。 一 般 的 分 子 类 还 有 一 个 子 类 用 来 表示 生物 分 子 ,例如 DNA、 和 蛋白 质 、 
RNA。 第 二 种 ( 也 是 很 重要 的 ) 类 型 用 于 实现 各 种 交互 能 量 计算 机 制 。 第 三 种 类 型 实现 数据 输入 
与 输出 相关 功能 。 代 码 支 持 多 种 文件 格式 的 输入 输出 功能 ,包括 许多 主流 的 文件 格式 ,以 及 基于 
NetCDF 的 自 定义 MMTK 格 式 。MMTK 的 文件 是 可 移植 的 ， 并 且 是 可 执行 文件 的 形式 。 由 于 它们 
是 可 执行 文件 ， 因 此 体积 小 ， 而 且 可 以 快速 接 入 。 

































































































































































9.3.3 ”标准 Python 程序 包 


除了 上 面 介 绍 的 那些 ，Python 还 有 许多 具有 专业 用 途 的 工具 、API 和 应 用 ， 可 以 在 PyPI 的 网 
站 http://pypi.python.org 里 看 到 。 里 面 有 几 千 个 专业 用 途 的 程序 包 ( 绝 大 多 数 都 是 用 Python 开 发 的 )。 
其 应 用 范围 涉及 大 量 的 科学 、 商 业 与 计算 领域 。 这 些 程序 包 涉 及 的 领域 包括 生物 信息 、 健 康 医疗 、 
地 理 空间 数据 分 析 、 仪器 仪表 、 工程、 数学 等 。 这 个 网 站 还 维护 了 一 个 按 类 型 划分 的 程序 包 列 表 。 
涉及 科学 与 工程 领域 的 程序 包 如 下 所 示 。 


口 fluiddyn: 研究 流体 力学 的 Python 框架 。 

D DeCiDa: Python 的 设备 与 电路 数据 分 析 工 具 。 

口 python-vxi11: Python 的 VXL11 驱 动 ， 用 于 控制 企业 内 网 连接 的 设备 。 

口 pygr: Python 图 形 数据 库 工 具 ， 主 要 用 于 生物 信息 学 产品 。 

D Brainiac: Python 关于 人 工 智能 系统 的 组 件 集合 ， 每 个 组 件 都 可 以 单独 使 用 。 
口 pyephem: 计算 天 体 运 行 位 置 的 Python 程序 包 。 

口 PyMca: X 射 线 荧 光 分 析 的 Python 工具 箱 。 

口 openallure: Python 的 声音 与 视觉 对 话 系 统 。 

口 BOTEC: 天 体 物 理学 与 轨道 力学 模拟 器 。 
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口 pyDGS: 基于 小 波 变换 的 数字 粒度 分 析 。 

D MetagenomeDB: 基因 序列 和 注释 数据 库 。 

D biofrills : 分 子 序 列 分 析 的 生物 信息 学 工具 。 

口 python-bioformat: 生命 科学 数据 读 写 文件 格式 。 

口 psychopy_ext: 一 个 针对 神经 科学 和 心理 学 实验 的 框架 ， 能 够 快速 进行 可 重复 设计 、 分 
析 与 画图 。 

口 Helmholtz: 创建 神经 科学 数据 库 的 框架 。 

口 pysesa: 一 个 致力 于 在 空间 域 和 频率 域 中 提供 通用 的 Python 框架 的 开源 项 目 ， 目 的 是 让 
点 云 数 据 和 其 他 地 理 空间 数据 的 统计 分 析 变 得 科学 直观 。 

D nitime: 神经 科学 数据 的 时 间 序 列 分 析 。 

口 SpacePy: 空间 科学 的 分 析 工 具 。 

口 Moss: 神经 影像 学 与 认 知 科学 的 统计 工具 。 
D cclib: 计算 化 学 的 解析 器 与 算法 工具 。 

口 PyQuante: Python 量子 化 学 程序 包 。 

口 phoebe: 恒星 和 行星 系统 的 物理 学 工具 。 
D mcview: 高 能 物理 事件 仿真 的 三 维 /图 像 事件 查看 器 。 
口 yt: 天 体 物理 学 仿真 的 分 析 与 可 视 化 工具 箱 。 

口 gwpy: 引力 波 天 文学 的 Python 程序 包 。 
























































9.4 小 结 


本 章 介 绍 了 用 Python 开发 的 一 些 专 门 用 于 科学 计算 领域 的 真实 应 用 、 程 序 库 和 工具 。 我 们 介 
绍 了 Python 在 许多 不 同 领域 的 应 用 ， 如 软 硬 件 开发 ( 像 OLPC 和 ExpEYES )， 以 及 照明 设备 中 用 
Python 进 行 通 入 式 系统 开发 。 也 介绍 了 Python 在 计算 化 学 与 生物 分 子 建 模 领域 的 应 用 。 最 后 还 介 
绍 了 Python 在 科学 与 其 他 领域 中 的 计算 机 辅助 建 模 的 案例 。 


下 一 章 将 介绍 科学 计算 应 用 与 API 开 发 过 程 中 的 最 佳 实践 ， 尤 其 是 Python 开发 的 最 佳 实践 。 





















































科学 计算 的 最 佳 实践 














本 章 将 介绍 适合 科学 计算 应 用 程序 、API 和 工具 的 开发 者 使 用 的 最 佳 实践 。 最 佳 实践 是 人 们 
通过 长 期 的 研究 与 实践 总 结 的 经 验 。 根 据 这 些 实践 方法 进行 开发 ， 可 以 达到 事半功倍 的 效果 。 


本 章 将 涉及 的 最 佳 实践 主题 如 下 : 


口 方案 设计 阶段 的 最 佳 实践 
口 功能 实现 阶段 的 最 佳 实践 
口 数据 管理 与 应 用 部 署 的 最 佳 实践 
口 实现 程序 高 性 能 的 最 佳 实践 
口 数据 隐私 与 网 络 安全 的 最 佳 实践 
口 程序 维护 与 客户 支持 的 最 佳 实践 
口 Python 程序 开发 专用 的 最 佳 实践 

通常 , 科学 家 用 科学 计算 工具 做 研究 , 他 们 绝 大 多 数 没 有 受过 正式 的 计算 机 科学 培训 。 这 就 
可 能 导致 他 们 开发 出 低 效率 的 产品 ,开发 周期 也 可 能 更 长 。 而 且 可 能 实现 的 算法 效率 不 高 ， 开 发 
时 间 很 长 ,代码 也 达 不 到 预期 的 效果 。 最 佳 实践 可 以 帮助 他 们 解决 这 些 问 题 。 科 学 家 遵循 最 佳 实 
践 ， 就 可 以 用 正确 的 科学 方法 进行 软件 开发 ， 并 让 他 们 的 代码 没有 无 用 的 异常 和 错误 。 

许多 科学 程序 库 / 应 用 程序 /工具 箱 都 是 完全 由 非 计算 机 专业 的 科学 家 开发 的 。 这 些 最 佳 实践 
帮助 他 们 取得 了 更 好 的 效果 ， 提 升 了 开发 效率 ， 改 善 了 开发 体验 。 

最 佳 实践 可 以 被 视 为 用 于 执行 软件 开发 任务 的 可 重复 的 标准 方法 。 















































10.1 方案 设计 阶段 的 最 佳 实践 
软件 开发 过 程 中 的 设计 阶段 的 最 佳 实践 如 下 。 


口 任务 分 配 到 不 同 的 团队 : 把 开发 生命 周期 的 不 同 阶段 的 任务 分 配给 不 同 的 团队 ， 效 果 更 
好 。 这 样 既 可 以 减轻 一 个 人 的 负担 ， 也 可 以 在 更 短 的 时 间 内 实现 更 好 的 效果 。 最 好 为 开 
发 的 每 个 阶段 选择 一 个 团队 (一 到 两 人 一 队 )， 分 别 负责 设计 、 实 施 和 测试 阶段 。 这 些 团 
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队 的 内 部 成 员 紧 密 合 作 ， 他 们 在 不 同 的 阶段 完成 各 自负 责 的 任务 。 这 样 做 比 不 同 团队 之 
间 的 合作 更 高 效 。 这 种 合作 方式 如 下 图 所 示 ， 不 同 的 步 又 都 用 普通 的 图 形 表示 。 设 计 师 
团队 可 以 在 编程 上 支持 开发 团队 ， 这 种 合作 方式 被 称 为 结对 编程 。 类 似 地 ， 功 能 实现 团 
队 与 测试 团队 密切 合作 ， 可 以 修复 bug， 改 善 系统 的 整体 性 能 。 
































设 证 















































x 
CC 天 ii 和 人， 


口 把 大 任务 分 割 成 小 任务 ， 分 而 治之 : 不 要 指望 一 次 性 写 一 个 大 程序 实现 一 个 大 功能 ， 应 
该 把 大 任务 分 解 成 若干 子 任务 。 这 是 一 种 循序 渐进 的 方法 ， 通 过 不 断 地 完成 一 个 个 子 任 
务 来 实现 最 终 任务 的 完成 。 这 样 将 会 提升 整体 开发 体验 ， 并 改善 实现 代码 的 质量 。 按 照 
这 样 的 方法 ,代码 质量 更 高 ， 时 间 消 耗 更 少 ， 可 维护 性 更 强 。 

口 每 个 子 任务 的 生命 周期 : 每 个 子 任务 都 按照 开发 生命 周期 ( 设计、 实现 和 测试 ) 来 执行 ， 
可 以 减少 程序 的 代码 错误 ， 因 为 每 个 子 任务 都 经 过 了 测试 。 这 还 可 以 改善 代码 的 整体 质 
量 ， 因 为 每 个 团队 只 需要 负责 一 小 部 分 代码 。 具 体 方法 如 下 页 图 所 示 。 


采用 这 种 方法 ， 开 发 团体 可 以 避免 陷入 影响 整体 重大 的 错误 之 中 。 而 且 这 种 方法 可 以 为 
最 终 的 测试 阶段 节省 很 多 时 间 。 


口 每 个 阶段 使 用 专业 的 软件 : 推荐 团队 在 开发 生命 周期 的 各 个 活动 中 使 用 专业 的 软件 。 大 
多 数 活动 都 有 许多 标准 软件 。 例 如 ， 有 一 些 专门 用 于 设计 与 建 模 工具 的 软件 ( 如 微软 的 
Visio )。 为 了 支持 开发 活动 ， 有 和 集成 开发 环境 ( 如 用 Eclipse 开发 Java )、 版 本 控制 软件 ( 如 
Git 和 CVS )、 程 序 调试 器 ( 如 GDB )、 编 译 工具 ( 如 常用 于 Java 开 发 的 ANT )。 还 有 许多 应 
用 测试 和 性 能 分 析 的 专业 软件 。 
























































194 第 10 章 ， 科 学 计算 的 最 佳 实践 
























































( 没 计 ] [编码 ]| | (设计 ] [编码 ]| |[ 设 让 (编码 
测试 测试 测试 









































每 个 子 任务 的 生命 周期 


10.2 ”功能 实现 阶段 的 最 佳 实践 
下 面 介绍 的 最 佳 实践 适合 应 用 于 功能 实现 阶段 。 


口 代码 注释 与 文档 最 大 化 : 大 多 数 科 学 应 用 都 涉及 复杂 的 算法 和 计算 ， 因 此 它们 的 实现 过 
程 也 很 复杂 。 如 果 对 那些 复杂 的 功能 实现 的 代码 进行 详细 的 说 明 ， 就 可 以 更 方便 未 来 的 
功能 增强 。 将 代码 注释 与 文档 最 大 化 ， 可 以 让 用 户 /开发 者 很 好 地 理解 程序 背后 的 设计 思 

路 。 尤 其 重要 的 是 ， 对 于 复杂 逮 辑 的 合理 注释 ， 可 以 方便 开发 团队 继续 增强 应 用 程序 / 工 

具 /API 的 功能 。 代 码 注释 可 以 解释 代码 的 逻辑 。 

提升 代码 可 重用 性 : 不 要 重复 发 明 轮 子 ， 在 开发 生命 周期 开始 之 前 ， 先 看 看 有 没有 合适 

的 程序 库 。 站 在 现 有 程序 库 的 基础 上 开发 会 节省 很 多 时 间 。 而 且 ， 使 用 现 有 的 优质 程序 

库 还 可 以 减少 运行 错误 、bug， 因 为 这 些 库 都 经 过 反复 测试 ， 久 经 考验 。 使 用 现 有 的 程序 

库 可 以 让 科学 家 将 精力 集中 在 科学 研究 之 中 。 这 样 可 以 节省 大 量 时 间 。 唯 一 要 花 时 间 的 
地 方 是 学 习 这 些 程序 库 ， 然 后 用 它们 完成 任务 。 

口 首先 开发 一 个 功能 完整 的 原型 : 一 种 开发 应 用 程序 、 工 具 、API 的 好 方法 ， 是 首先 开发 一 
个 可 以 正常 运行 的 原型 ， 然 后 再 不 断 地 优化 。 即 使 是 开发 一 些 简单 的 商业 软件 ， 这 种 方 
法 也 值得 尝试 。 正 常 运行 的 原型 可 以 通过 优化 改善 性 能 。 然 而 ， 开 发 过 程 中 制定 优化 计 
划 可 能 会 分 散 团 队 注 意 力 。 因 此 ， 在 开发 阶段 ,团队 的 重心 应 该 放 在 实现 需要 的 功能 
之 后 可 以 优化 正常 运行 的 应 用 程序 、 工 具 、API 以 改善 性 能 (过 早 优化 是 魔鬼 )。 
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口 预防 未 来 可 能 发 生 的 错误 : 采取 积极 主动 的 方法 应 对 未 来 的 错误 。 这 种 方法 会 涉及 呆 言 、 
异常 处 理 、 自 动 化 测试 与 调试 。 断 言 可 以 用 来 判断 代码 的 前 置 条 件 和 后 继 条 件 都 是 正常 
的 。 自 动 化 测试 可 以 帮助 开发 人 员 保证 程序 的 功能 没有 改变 ， 即 使 程序 已 经 被 调整 过 了 。 
在 测试 阶段 ， 每 个 错误 都 应 该 被 转换 成 一 个 测试 用 例 ， 这 样 未 来 再 遇 到 时 就 可 以 自动 化 
测试 。 使 用 调试 器 比 直 接 在 代码 里 用 print 打 印 结果 来 验证 的 代码 正确 性 更 高 效 。 调 试 器 
可 以 帮助 开发 者 深入 理解 程序 每 一 行 语句 所 做 的 动作 。 有 异常 处 理 可 以 帮助 开发 者 提前 处 
理 异常 。 下 面 的 代码 演示 了 Python 岂 言 的 用 法 : 


# 判断 前 置 条 件 的 测试 

def centigradeToFahrenheit (centigrade): 
assert type(centigrade) is IntType, "Not an integer" 
assert (centigrade >= 0), "Less then absolute Zero" 
return (9 * centigrade/5 + 32) 

print centigradeToFahrenheit (40) 

print centigradeToFahrenheit (15) 

print centigradeToFahrenheit(-10) 

# 判断 前 置 条 件 与 后 继 条 件 的 测试 


def calculate percentage (marks1，marks2，marks3) : 















































assert (marksl1 >= 0), "Less then absolute Zero" 

assert (marks2 >= 0), "Less then absolute Zero" 

assert (marks3 >= 0), "Less then absolute Zero" 

result = (marksl + marks2 + marks3) / 100.0 

assert (0.0 <= result <= 100), "Percentage should be between 0 and 100" 


return result 


口 数据 与 代码 的 开源 与 标准 出 版 物 : 开发 的 代码 与 实验 用 的 数据 最 好 都 以 开源 /标准 的 形式 
发 布 , 这 样 数据 与 代码 就 可 以 被 该 研究 领域 的 科学 家 们 使 用 。 这样 做 可 以 增加 应 用 程序 、 
工具 和 API 的 关注 度 ， 最 终 也 会 形成 更 大 的 用 户 基 础 。 


代码 与 数据 的 发 布 会 吸引 大 量 的 用 户 ， 这 些 用 户 会 参与 程序 测试 与 未 来 的 功能 改善 。 数 
据 也 会 被 改善 ， 并 根据 新 用 户 的 需求 不 断 更 新 。 通 常 ， 开 源 软件 经 过 全 球 各 地 的 开发 者 
和 科学 家 的 协作 ， 都 会 不 断 地 更 新 。 为 了 支持 大 量 分 散 的 开发 者 贡献 项 目 ， 分 布 式 版 本 
控制 工具 "应 运 而 生 。 分 布 式 版 本 控制 工具 是 基于 网 络 开发 的 系统 ， 具 有 强大 的 扩展 性 ， 
可 以 支持 大 量 的 开发 者 。 传统 的 版 本 控制 工具 不 能 支持 众多 的 开发 者 共同 维护 一 个 项 目 。 
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10.3 ”数据 管理 与 应 用 部 署 的 最 佳 实践 
这 部 分 内 容 是 数据 管理 与 应 用 部 署 阶段 的 最 佳 实践 。 


口 数据 备份 : 这 条 实践 适用 于 关键 任务 的 应 用 程序 ， 数 据 一 旦 丢失 将 是 严重 损失 ， 可 能 造 
成 很 高 的 实验 成 本 ， 甚 至 实验 失败 会 造成 生命 的 代价 。 对 于 这 类 关键 任务 的 应 用 程序 ， 
应 该 适当 考虑 数据 备份 ， 这 样 可 以 保证 当 系 统 部 分 功能 出 现 故障 时 ， 不 会 影响 到 系统 整 
体 功能 。 备 份 数据 必须 放 到 不 同 的 位 置 ， 这 样 即使 菜 地 区 发 生 自然 灾害 ， 也 不 会 影响 最 
终 功能 。 


数据 备份 的 概念 如 下 图 所 示 。 每 份 数 据 都 会 在 全 球 的 不 同位 置 复制 三 份 。 即 使 一 两 块 数 
据 出 现 了 故障 ， 也 不 会 影响 系统 整体 功能 。 


口 用 真实 和 模拟 数据 做 测试 : 应 用 程序 可 以 用 真实 数据 测试 ， 也 可 以 用 模拟 数据 测试 。 如 
果 拿 不 到 真实 数据 ， 就 用 模拟 数据 。 要 获取 模拟 数据 ， 可 使 用 第 3 章 中 介绍 的 基于 统计 分 
布 的 随机 数 生成 技术 。 通 常 ， 绝 大 多 数 常用 的 科学 应 用 程序 都 有 公开 的 数据 集 ， 在 第 3 章 
里 已 经 介绍 过 。 如 果 有 合适 的 数据 集 ， 就 可 以 拿 来 实验 ， 对 应 用 程序 进行 测试 。 
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10.4 ”实现 高 性 能 的 最 佳 实践 
这 部 分 内 容 主 要 面向 需要 高 性 能 的 应 用 程序 。 实 现 高 性 能 的 最 佳 实践 如 下 所 示 。 


口 为 将 来 的 扩展 性 需求 做 准备 : 主动 地 为 将 来 的 扩展 性 需求 做 好 准备 ， 是 更 加 合理 的 决策 。 
系统 运行 的 数据 集 可 能 是 小 数据 集 、 大 数据 集 、 千 万 亿 级 甚至 百 亿 亿 级 ; 在 设计 阶段 必 
须 考虑 这 个 问题 。 根 据 这 个 需求 ， 硬 件 配置 、 软 件 开 发 框架 和 数据 库 都 需要 进行 合理 配 
置 。 设 计 过 程 中 需要 考虑 到 系统 将 来 需要 处 理 大 数据 的 可 能 性 。 

口 选择 软件 与 硬件 : 花 足 够 的 时 间 为 应 用 程序 、 工 具 和 API 选 择 最 合适 的 技术 。 这 个 过 程 需 
要 一 开始 花 时 间 挑 选 能 够 实现 目标 功能 的 合适 的 开发 环境 。 这 些 技 术 包括 选择 一 种 适宜 
的 编程 语言 和 开发 框架 、 合 适 的 数据 库 / 数 据 存 储 、 需 要 的 硬件 、 合 适 的 部 署 环 境 ， 等 等 。 

口 选择 合适 的 API: 如 果 有 API 可 以 实现 想 要 的 功能 , 选择 最 合适 的 API 对 成 功 、 高 效 地 实现 
功能 至 关 重 要 。 在 确定 要 使 用 的 API 之 前 ， 需 要 适当 地 分 析 API 是 否 可 以 实现 目标 功能 与 

性 能 要 求 。 最 终 产 品 的 性 能 直接 受到 建立 系统 时 使 用 的 API 性 能 的 影响 。 

口 使 用 适当 的 性 能 测试 工具 : 对 于 性 能 关键 型 应 用 ， 需 要 使 用 合适 的 性 能 测试 工具 。 有 许 
多 性 能 测试 工具 可 以 测试 不 同类 型 的 应 用 程序 、 工 具 和 API 的 性 能 。 例 如 ，DEISA 性 能 测 
试 套件 是 一 个 专门 设计 的 高 性 能 科学 计算 应 用 程序 。 通 常 ， 性 能 测试 工具 都 是 由 应 用 程 
序 所 在 领域 的 一 些 用 户 自 定义 和 实际 的 程序 案例 构成 。 这 些 程序 会 运行 许多 次 ， 以 测试 
目标 应 用 程序 的 性 能 。 
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10.5 数据 隐私 与 安全 的 最 佳 实 践 


数据 隐私 与 安全 是 应 用 程序 能 够 被 用 户 接受 并 广泛 使 用 的 最 重要 前 提 。 本 节 介 绍 关于 应 用 程 
序 和 数据 的 合理 隐私 与 安全 的 最 佳 实践 。 


口 数据 隐私 : 有 一 些 应 用 程序 涉及 数据 采集 ， 对 于 这 类 应 用 程序 ， 开 发 者 需要 注意 保护 用 
户 数 据 隐 私 。 数 据 隐私 非常 重要 ， 这些 数 据 可 能 是 财务 和 医药 数据 ， 一 旦 泄露 就 可 能 让 
数据 采集 者 倾家荡产 。 因 此 ， 在 开发 生命 周期 的 各 个 阶段 都 需要 时 刻 关注 。 

口 网 络 应 用 /服务 的 安全 注意 事项 : 如 果 应 用 程序 被 设计 成 网 络 应 用 /服务 ,网络 信息 安全 是 
必须 考虑 的 一 环 ， 因 为 网 络 服务 系统 是 网 络 攻击 的 主要 对 象 。 有 一 些 成 熟 的 安全 策略 既 
适用 于 网 络 服务 系统 的 安全 防护 ， 也 可 以 用 于 对 系统 进行 攻击 。 从 应 用 程序 开发 生命 周 

期 的 第 一 步 开 始 ， 就 应 该 考虑 安全 防护 措施 。 适 当 的 证 书 许可 与 鉴 权 机 制 可 以 同时 实现 

应 用 程序 的 隐私 与 安全 防护 。 


















































10.6 ”测试 与 维护 的 最 佳 实践 
适当 的 测试 与 维护 对 软件 开发 是 至 关 重要 的 。 本 节 重 点 介绍 测试 与 开发 阶段 的 最 佳 实践 。 


口 单元 测试 优先 : 最 好 优先 进行 单元 测试 。 单 元 测试 成 功 后 ， 再 进行 集成 测试 。 待 集成 测 
试 通 过 后 ， 再 进行 验证 测试 。 单 元 测试 可 以 保证 系统 的 不 同 模块 能 正常 工作 ， 并 且 有 助 
于 尽早 发 现 错误 。 这 样 不 仅 可 以 修复 模块 中 的 bug， 还 可 以 帮助 开发 者 找到 最 初 想法 实现 
中 缺失 的 部 分 。 由 于 单元 测试 一 次 只 对 一 个 模块 进行 测试 ， 关 注 点 很 小 ， 因 此 可 以 找到 
功能 实现 阶段 落下 的 部 分 。 

口 不 同 的 测试 团队 : 测试 是 产品 最 终 获得 成 功 的 关键 环节 。 测 试 阶段 中 最 好 是 不 同 的 团队 
负责 不 同 的 功能 。 这 些 团 队 共 同 合作 获取 更 好 的 结果 。 这 样 做 可 以 识别 功能 实现 阶段 的 
bug 和 问题 ， 让 最 终 产 品 获得 更 好 的 功能 。 

口 成 立 客户 支持 工作 组 : 为 了 向 大 型 系统 的 用 户 提供 支持 和 维护 ， 最 好 为 系统 的 不 同 功能 
模块 创建 多 个 工作 组 。 最 好 各 个 功能 模块 的 一 个 开发 者 可 以 成 为 工作 组 的 一 员 。 这 样 ， 
开发 者 ( 也 是 组 员 ) 就 很 容易 发 现 问题 并 及 时 修复 。 每 个 工作 组 专门 负责 一 部 分 。 这 样 ， 
工作 组 的 每 个 成 员 都 会 对 那 部 分 功能 有 透彻 的 理解 。 这 些 组 员 也 可 以 轻松 地 管理 支持 与 
维护 的 工作 。 

口 为 大 型 项 目 成 立 多 个 工作 组 : 对 于 大 型 项 目 ， 需 要 创建 多 个 工作 组 共同 分 担 工作 任务 。 
每 个 工作 组 负责 一 块 任务 ， 为 客户 提供 支持 、 维 护 和 改善 服务 。 专 攻 一 个 领域 的 工作 组 
可 以 不 断 改 善 系 统 的 整体 质量 ， 为 客户 提供 更 好 的 支持 。 由 于 一 个 团队 在 较 短 的 时 间 内 

遇 到 了 同一 领域 的 许多 问题 ， 因 此 他 们 处 理 问题 的 经 验 更 丰富 ， 并 最 终 为 系统 提供 客户 

真正 需要 的 更 新 。 
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口 建立 用 户 帮 助 与 支持 邮件 列表 : 为 每 个 工作 组 创建 一 个 用 户 邮件 /反馈 列表 。 用 户 可 以 向 
邮件 列表 提出 问题 ， 工 作 组 成 员 也 可 以 通过 邮件 列表 答复 用 户 问题 。 邮 件 列表 可 以 作为 
用 户 与 开发 者 的 沟通 桥梁 。 














10.7 Python 常用 的 最 佳 实践 
这 一 节 将 介绍 一 些 Python 开 发 者 常用 的 最 佳 实践 。 


D Python 的 PEP 0008 代 码 规范 : 这 部 分 最 佳 实践 的 第 一 条 是 深入 理解 并 遵照 PEP 0008 编 码 
规范 。 详 情 请 参考 https:/www.python.org/dev/peps/pep-0008/。 

口 命名 习惯 : 推荐 所 有 的 Python 开 发 者 都 保持 前 后 一 致 是 有 意义 的 命名 习惯 。 这 条 建议 不 仅 
对 应 用 程序 的 原始 开发 者 有 和 帮助， 同样 也 适用 于 未 来 扩展 程序 功能 的 开发 者 。 统 一 并 有 
意义 的 名 称 可 以 改善 代码 的 可 读 性 。 命 名 习惯 应 该 遵循 统一 的 命名 规则 ， 并 为 具体 的 语 
言 调整 相应 的 命名 规则 。 例 如 ， 用 下 划 线 与 驼峰 式 大 小 写 方式 连接 多 个 单词 ， 构 建 一 个 
变量 名 和 函数 名 。 下 表 列 出 了 推荐 使 用 的 名 称 和 不 推荐 使 用 的 名 称 。 












































不 值得 推荐 的 代码 风格 值得 推荐 的 代码 风格 


县 三 鸯 
变 里 变 里 





varl、 var2、 mycalculation、 area、incomeTax、productCost、 
temp_val、 Counter.、 

f1、num35 lambda、sigma 

sum of _ product 


funcl()、 function2()、 calculation_ func().、 calculateArea()、 product_of_sum() 








perform func() sinx() 


口 统一 的 代码 风格 : 一 般 情 况 下 ， 推 荐 你 在 整个 系统 中 使 用 一 个 标准 、 统 一 的 代码 风格 。 
代码 断言 、 缩 进 、 注 释 和 其 他 内 容 的 风格 都 应 该 一 致 。 为 代码 注释 采用 或 开发 一 个 标准 
风格 ， 并 在 整个 系统 的 编码 过 程 中 严格 执行 。 类 似 地 ， 整 个 系统 代码 的 格式 也 应 该 一 致 。 
还 需要 考虑 代码 中 空格 与 缩 进 的 使 用 。 


下 面 的 例子 演示 了 两 种 不 同 的 代码 格式 。 


空格 与 缩 进 格式 不 统一 空格 与 缩 进 格式 统一 

Xba Arawo) 2 Es A 
YY 六 

def sample_function() def sample_function() 

print "in function" print "in function" 




















print " last line" print " last line" 
def secongd_ sample() def secongd_ sample() 
Brint "Tn functiom" print vin funcetion” 
print "last line" print "last line" 
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10.8 小结 
本 章 介绍 了 科学 计算 团队 需要 使 用 的 最 佳 实践 。 首 先 介绍 了 方案 设计 的 最 佳 实践 ,然后 介绍 
了 写 代码 的 最 佳 实 践 ， 之 后 介绍 了 数据 管理 与 应 用 部 署 的 最 佳 实践 。 


紧 接着 , 介绍 了 高 性 能 计算 的 最 佳 实践 以 及 数据 隐私 与 网 络 安 全 的 最 佳 实践 , 之 后 介绍 了 程 
序 维护 与 客户 支持 的 最 佳 实践 ， 最 后 介绍 了 Python 开 发 者 常用 的 最 佳 实践 。 
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